爬取百度文库

猿急送>其他其它兼职程序员>……>

案例列表

基本信息

案例ID：176505

技术顾问：…… - 14年经验 - 国能集团

微信扫码，建群沟通

项目名称：爬取百度文库

所属行业：企业服务 - 数据服务

->查看更多案例

案例介绍

项目名称：通过selenium爬虫爬取百度文库

项目描述：
项目介绍
对百度文库页面分析时，发现需要登录后才能看到相关文本内容，源码页面无所需内容，为此需要selenium并携带登录cookie内容，对百度文库相关信息进行爬取，爬取内容格式包括txt，PDF，PPT，Word等。爬取结果分别存储为txt，jpg，Word等格式。
我的职责
1，采用selenium携带cookie，发起请求。
2，通过selenium携带cookie，防止因为页面抓取不到产生数据不全的现象。
3，通过selenium获取来保存cookie，以应对基于cookie的反扒策略
4，使用xpath进行页面解析，解析出的数据通过docx模块存储于doc文件中

案例图片

点击查看他的更多案例

相似案例推荐

其他人才的相似案例推荐

统一支付对账

此系统是用于医院支付系统配置，管理，对账一体的一个系统。包含
绿城AI数字化运营项目

项目名称：绿城 AI 数字化运营项目项目描述：绿城 AI
互联网舆情项目

前台主要为一些数据的可视化分析，以呈现数据的效果为主；后台多
pubmed文献爬虫及PDF下载

完成在pubmed网站上的文献信息搜索、下载及PDF搜索自动
日志系统

Laravel项目可用。添加各种类型日志，支持制定参数，
数据分析报告

据分析报告是通过对项目数据全方位的科学分析来评估项目的可行性
港口综合管理系统

项目主要是对重庆海事事务的管理，功能囊括了行业端和企业端两大
西安市环境数据中心

系统简述：对西安高新区的大气数据，水质数据，噪声数据，污染源
园区管理系统

园区管理系统，后端采用Springboot、mysql、re
某某城市管理系统

本项目完成了系统拥有极丰富的数据展示能力，基于大数据处理平台
用户画像

BI分析系统，管理层在线查看报表来对日常运营以及确定app开
大数据后台

搭建企业级数据仓库、用户画像、feed流推荐系统、app运营

联系需求方端客服

热门标签列表

程序员接私活程序员兼职企业外包外包案例

热门城市人才

北京兼职程序员上海兼职程序员广州兼职程序员深圳兼职程序员杭州兼职程序员成都兼职程序员天津兼职程序员重庆兼职程序员武汉兼职程序员西安兼职程序员南京兼职程序员长沙兼职程序员苏州兼职程序员厦门兼职程序员福州兼职程序员合肥兼职程序员济南兼职程序员青岛兼职程序员大连兼职程序员长春兼职程序员沈阳兼职程序员哈尔滨兼职程序员石家庄兼职程序员太原兼职程序员无锡兼职程序员南昌兼职程序员洛阳兼职程序员郑州兼职程序员南宁兼职程序员珠海兼职程序员宁波兼职程序员昆明兼职程序员东莞兼职程序员贵阳兼职程序员温州兼职程序员佛山兼职程序员中山兼职程序员海口兼职程序员常州兼职程序员兰州兼职程序员呼和浩特兼职程序员乌鲁木齐兼职程序员海外兼职程序员其他兼职程序员山东兼职程序员远程兼职程序员

热门城市职位

北京程序员招聘上海程序员招聘广州程序员招聘深圳程序员招聘杭州程序员招聘成都程序员招聘天津程序员招聘重庆程序员招聘武汉程序员招聘西安程序员招聘南京程序员招聘长沙程序员招聘苏州程序员招聘厦门程序员招聘福州程序员招聘合肥程序员招聘济南程序员招聘青岛程序员招聘大连程序员招聘长春程序员招聘沈阳程序员招聘哈尔滨程序员招聘石家庄程序员招聘太原程序员招聘无锡程序员招聘南昌程序员招聘洛阳程序员招聘郑州程序员招聘南宁程序员招聘珠海程序员招聘宁波程序员招聘昆明程序员招聘东莞程序员招聘贵阳程序员招聘温州程序员招聘佛山程序员招聘中山程序员招聘海口程序员招聘常州程序员招聘兰州程序员招聘呼和浩特程序员招聘乌鲁木齐程序员招聘海外程序员招聘其他程序员招聘山东程序员招聘远程程序员招聘

热门人才推荐

热门职位推荐

iOS工程师Android工程师前端工程师后端工程师嵌入式工程师UI设计师产品经理测试工程师运维工程师游戏工程师运营/编辑其它

找人才 | 接项目 | 招聘专员 | 京ICP备16030138号-1 | Copyright © 2015-2025 猿急送