项目名称:通过selenium爬虫爬取百度文库
项目描述:
项目介绍
对百度文库页面分析时,发现需要登录后才能看到相关文本内容,源码页面无所需内容,为此需要selenium并携带登录cookie内容,对百度文库相关信息进行爬取,爬取内容格式包括txt,PDF,PPT,Word等。爬取结果分别存储为txt,jpg,Word等格式。
我的职责
1,采用selenium携带cookie,发起请求。
2,通过selenium携带cookie,防止因为页面抓取不到产生数据不全的现象。
3,通过selenium获取来保存cookie,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过docx模块存储于doc文件中