1. 系统掌握 Python,有扎实的爬虫开发经验
2. 熟练使用 scrapy 框架及分布式爬虫架构
3. 熟练使用 requests 库,urlli,bs4 等模块,能够熟练运用正则表达式,Xpath 选择器提取网页 URL
4. 熟练使用 selenium 框架 实现网页动态信息的获取
5. 熟练运用 Mysql,Redis等数据库工具,实现对各种数据的存储及提取
6. 熟悉 JavaScript,HTML5 等常用前端技术
项目一:网银数据爬取
项目描述:主要为了将资管行业运营人员从日常繁琐的网银流水查询工作中解放出来,提升运营部门的工作效率。
项目工具:selenium mysql
项目分析:
1. 使用 Selenium进行动态网页信息爬取
2. 使用 Xpath 获取相应的页面信息,触发 Click 事件,点击下一页
3. 使用 Json 进行数据格式处理
4. 将提取的数据进行保存
项目总结:
1. 使用 Selenium几乎可以绕开大多数的反爬虫 因为本身就是个浏览器
2. 使用 Selenium 爬取数据优点是不需要抓包分析链接等,缺点是模拟浏览器获取动态数据,速度相对较慢
项目二:采购站点数据爬取
项目描述: 主要从各大采购平台招投标网站爬取有用的数据 最后提供给客户
项目工具:scrapy框架 mysql
项目分析:
1. scrapy 框架实现各模块的高内聚低耦合,通过 Spider Engine 负责 Spider、ItemPipeline、Downloader、Scheduler 之间的请求及响应传送,能够更有效的进行数据的提取及处理
2. 在设置中添加 UA 代理池,随机获取代理,通过 Xpath 获取相应 url,发送请求,提取数据
3. 在 Mysql 中建立相应的表,将数据保存到 Mysql 中
项目总结:
1. 通过 scrapy 框架爬取数据 , 以及根据需求修改设置内容 , 能够更清楚 parse--yield item--pipeline 的模式,对 scrapy 框架的使用更熟练
2. 在 scrapy 中可以与数据库建立链接,更方便的进行数据存储