项目描述:爬取各个大型图书网站,如新华书店图书网,在线网上图书一号店等。获取它们图书的名称,简介,购买量,评
论量,评论数据,价格等,存入数据库。
项目技能:requests,Xpath,json,Redis,MongoDB ,协程,re
项目职责:
1.使用 requests 模块,发送 http 请求,使用协程进行爬取网页,提高爬虫效率
2.分析需要爬取的数据,发现在 ajax 请求中,数据格式为 json 。使用 re 模块在返回的 response.content 中匹配需求数据,获取
到数据
3.自定义 get_ua 函数,,调用 get_ua 随机获取 user-agent ,对 request 对象来进行包装,应对反爬