熟练使用 python 语言基于 scrapy 框架的网络数据爬虫,熟练 xpath,正则表达式 ,熟悉 js. ajax 处理。
具有实际开发经验。滑块验证的破解,反爬措施的应对,熟悉 Linux 操作系统,有独立完成爬虫项目的经
验,实现基于 redis 消息队列的分布式爬虫
使用 python+scrapy 对给定账号的新浪微博所发的微博正文进行抓取
实时监控创投媒体报道挖掘最新投融资事件结构化入库
Python+selenium 抓取天眼查
企业信息公示系统信息爬取(滑块拼图验证)。
因果树,it 桔子数据爬取(it 桔子网站限制只显示20页,从 it 桔子 app 内抓的接口)
不同数据源数据整合
对新浪汽车,网易汽车,汽车之家,爱卡汽车等汽车网站的数据的的抓取。
对安居客,筑家易,腾讯房产等楼盘信息的抓取