基本信息

案例ID:176505

技术顾问:…… - 14年经验 - 国能集团

联系沟通

微信扫码,建群沟通

项目名称:爬取百度文库

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

项目名称:通过selenium爬虫爬取百度文库

项目描述:
项目介绍
对百度文库页面分析时,发现需要登录后才能看到相关文本内容,源码页面无所需内容,为此需要selenium并携带登录cookie内容,对百度文库相关信息进行爬取,爬取内容格式包括txt,PDF,PPT,Word等。爬取结果分别存储为txt,jpg,Word等格式。
我的职责
1,采用selenium携带cookie,发起请求。
2,通过selenium携带cookie,防止因为页面抓取不到产生数据不全的现象。
3,通过selenium获取来保存cookie,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过docx模块存储于doc文件中

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服