熟练掌握Python语言,熟悉各种反爬虫机制。
熟悉font-face自定义字体反爬。
熟练掌握多进程,多线程,协成开发
熟悉HTTP/HTTPS协议,TCP/IP网络协议。
熟练使用requests等网络模块。
熟练使用xpath与css选择器、正则、json模块进行数据提取。
熟练使用selenium+各类浏览器,以及scrapy-splash实现动态HTML抓取
熟练掌握Scrapy框架及其高级特性。
熟悉Redis、MySQL、Mongodb、postgresql数据库操作和特点
熟悉HTML、CSS、Javascript、jQuery以及AJAX等前端技术
熟练使用numpy,pandas,matplotlib实现数据清洗,分析,展示
了解django和flask框架,可以搭建网站后端及数据api
天猫店铺商品爬虫
项目描述:
为了爬取天猫指定店铺的全部商品信息,对天猫的手机触屏版页面进行抓取,采用
fiddler4抓包工具获得天猫使用js异步加载商品信息使用的url。使用requests发送请求,获取json数据后,利用mongodb存储
天眼查,启信宝公司数据抓取所属公司:
项目描述:
从天眼查公司相关数据,第一步从天眼查手机端抓取了2000W条公司的工商注册名称以及在其在天眼查的id存入mysql数据库用于抓取详情拼接url。天眼查数据保护十分严密,需要登陆之后才能得到全部数据,通过接码平台注册了1000个天眼查账号,同时在8台服务器部署300个任务抓取,由于天眼查大量js异步加载内容,工具上选用了selenium + headless chrome ,每个账号大概爬取300个公司数据后会出现图片点击验证码。使用若快图片识别平台获取文字坐标,然后selenium操作浏览器点击解除验证。爬取后的数据初步以文件形式存入阿里云oss,然后通过初步清洗后以json格式存入postgresql数据库
启信宝使用requests自搭框架,破解启信宝的登陆接口加密,以及大部分数据接口请求头中的加密key,value