掌握基本的前端技术, HTML、CSS、 JS 、Bootstrap 、Ajax请求等; 掌握python语言面向对象的编程方式; 掌握MySQL, Redis, Mongodb等数据库; 掌握基于正则表达式Xpath CSS 等网页信息抽取技术; 熟练Requests urllib2库; 熟练Scrapy爬虫框架;了解HTTPS协议。
项目简介: 因公司需求需要,对xxxxxxx网进行数据爬取,针对网站限制只能查询100页的限 制做出相应对策,根据不同的筛选条件对对应分类下的所有案件文书进行抓取,提取其文书标题,内容,标号,类型,文号等字段,再爬取信息的同时下载文书的doc文档。
责任描述:
1.负责分析xxxxxxx网,其网页结构以及参数验证机制,制定爬取策略。
2.负责编写爬虫代码,分析反爬机制,使用正则表达式提取网站数据。
3.部署爬虫项目,定时开启爬虫任务,刷新数据。
4.负责爬虫代码的维护和优化,及时反馈爬虫状态。