猿急送>

广州其它兼职程序员

ID：162495

Cloud_Paul

爬虫工程师

公司信息：
广州潮汐信息科技有限公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
广州
荔湾

技术能力

 熟练掌握urllib、requsets、Fiddler工具、selenium、chromedriver工具、
 熟练掌握re、Xpath、beautifulsoup、页面解析库
 掌握验证码识别技术
 熟练掌握字体反爬、CSS反爬技术
 熟练掌握ip池、cookie池的搭建
 熟练掌握scrapy框架，scrapy-redis分布式断点续爬技术
 熟练掌握html，JavaScript语言、以及JQuery
 熟练掌握MySql、MongoDB、Redis数据库
 熟练掌握网络编程、进程线程、协程等知识
 熟悉了解numpy库，能绘制简单的数据分析图
 熟练windows/Linux开发环境；
 熟练掌握python语言基础，面向对象编程思维
 熟练掌握Flask、Django服务器框架

项目经验

项目一：大众点评爬取系统
项目环境：windows10+python3.5+pycharm
项目描述：抓取指定商家的名称、店铺星际、评论数、人均消费价格、店铺地址
项目难点：css字体加密反爬、且不定时切换两套不同的反爬机制
项目开发过程：
反爬种类一： svg字体反爬
解决过程：抓取css文件中的svg文件，解析svg文件，根据x,y偏移量可计算出文字在SVG源文件的索引值，再生成映射关系字典，替换被修改的字体。
反爬种类二： woff字体反爬
解决过程：抓取css文件中的woff文件，用FFfont库以及第三方图片识别接口解析woff文件，生成文字映射关系字典，再做替换。

项目二：微信公众号爬取系统
项目环境：windows10+python3.5+pycharm+fiddler
项目描述：爬取指定微信公众号的所有的文章以及对应的评论、阅读量、点赞量
项目难点：抓包寻找每个公众号以及每篇文章的标识符，cookie的时效性，以及访问评率限制
项目开发过程
1.通过抓包发现，请求头中的biz、appmsg_token参数是每个公众号的标识符
2. 通过抓包发现，请求头中的mid、idx参数分每篇文章的标识符
3. 分析返回json数据的结构，提取响应的信息

项目三：抖音小视频爬取系统
项目环境：windows10+python3.5+pycharm+fiddler
项目描述：爬取指定用户发布的所有视频
项目难点：抓包、寻找视频的下载url、以及关键参数
项目开发过程
用fiddler工具抓包，先寻找下载视频的url，再寻找某个用户名下所有的小视频的id号，将
1. 通过抓包分析，爬取文本信息不难，难点是找视频下载地址
2. 在返回的json数据中发现下载视频的url其实在分析连接里面
3. 找到视频下载url后，根据视频的id编号发送请求即可完成爬取。