1、精通python基础,熟悉常用的标准库及基础的数据结构算法,有良好的编程规范;
2、熟练使用scrapy、selenium,requests 等相关爬虫技术及框架,及多线程、进程、异步的使用;
3、熟悉常见爬虫反爬策略和防屏蔽规则,有相关业务处理经验。
4、熟悉基于正则表达式、XPath、CssSelector、beautifulsoup等网页信息解析技术;
电商平台数据分析
项目描述:爬取电商类网站的数据信息,保存入库对爬取到的商品信息进行分析提取,寻找其中的规律,挖掘有用的数据信息。
责任描述:
1.运用scrapy框架结构,爬取网页信息,技术涉及cookie登录验证、多线程、代理池;
2.使用Selenium对部分动态网站的信息进行采集;
3.爬取信息存入mongodb数据库;
4.根据分析结果,对潜在商家客户进行挖掘,制定更加科学的新产品研发计划。
国内酒店信息爬取
项目描述:完成对国内旅游网站酒店价格、热度、口碑等信息抓取的业务实现。
责任描述:
1.确定爬取目标和所需信息,主要业务是对携程、去哪儿、途牛等国内旅游网站的酒店综合信息的抓取。分析各个网站的链接特征,对网页端、网页手机端、app端进行分析,分析其不同的反爬措施;
2.确定整体的爬取方案,利用伪装cookie、代理IP、降低请求频率、等技术伪装浏览器,利用scrapy爬虫框架实现全部信息的抓取业务,实现分布式的可持久化的爬取。
项目描述:根据公司需求,爬取腾旭视频搜索数据,设计反反爬方案。 责任描述: 1. 分析当前搜索页面,定位数据接口 2. 分析 js 逻辑,利用hook注入,断点调试,解析 cookies 参数。 3.针对网站的反爬措施提供解决方案; 4.使用Xpath,re等技术来定位
项目描述:根据公司需求,爬取 51job 的职位数据,设计反反爬方案。 责任描述: 1. 分析当前网站逻辑,定位采集全站列表页职位数据 2. 分析 js 逻辑,断点调试,解析 cookies 参数。 3.针对网站的反爬措施提供解决方案; 4.使用Xpath,re等技术来