猿急送>

上海其它兼职程序员

ID：149579

LanSniper

数据开发工程师

公司信息：
上海画龙科技

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
上海
徐汇

技术能力

熟练掌握Python语言，熟悉各种反爬虫机制。
熟悉font-face自定义字体反爬。
熟练掌握多进程，多线程，协成开发
熟悉HTTP/HTTPS协议，TCP/IP网络协议。
熟练使用requests等网络模块。
熟练使用xpath与css选择器、正则、json模块进行数据提取。
熟练使用selenium+各类浏览器，以及scrapy-splash实现动态HTML抓取
熟练掌握Scrapy框架及其高级特性。
熟悉Redis、MySQL、Mongodb、postgresql数据库操作和特点
熟悉HTML、CSS、Javascript、jQuery以及AJAX等前端技术
熟练使用numpy，pandas，matplotlib实现数据清洗，分析，展示
了解django和flask框架，可以搭建网站后端及数据api

项目经验

天猫店铺商品爬虫
项目描述：
为了爬取天猫指定店铺的全部商品信息，对天猫的手机触屏版页面进行抓取，采用
fiddler4抓包工具获得天猫使用js异步加载商品信息使用的url。使用requests发送请求，获取json数据后，利用mongodb存储
天眼查，启信宝公司数据抓取所属公司：
项目描述：
从天眼查公司相关数据，第一步从天眼查手机端抓取了2000W条公司的工商注册名称以及在其在天眼查的id存入mysql数据库用于抓取详情拼接url。天眼查数据保护十分严密，需要登陆之后才能得到全部数据，通过接码平台注册了1000个天眼查账号，同时在8台服务器部署300个任务抓取，由于天眼查大量js异步加载内容，工具上选用了selenium + headless chrome ，每个账号大概爬取300个公司数据后会出现图片点击验证码。使用若快图片识别平台获取文字坐标，然后selenium操作浏览器点击解除验证。爬取后的数据初步以文件形式存入阿里云oss，然后通过初步清洗后以json格式存入postgresql数据库
启信宝使用requests自搭框架，破解启信宝的登陆接口加密，以及大部分数据接口请求头中的加密key，value