猿急送>

深圳其它兼职程序员

ID：335756

愿

爬虫工程师

公司信息：
深圳黑海信息科技有限公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
深圳
龙华

技术能力

1.熟练掌握requests等请求库；
2. 熟练掌握xpath、正则表达式等定位语句
3. 熟练掌握python异步、asyncio、aiohttp、aiomysql等异步库
4. 熟练掌握scrapy、scrapy-redis等爬虫框架
5. 熟练掌握mysql、mongodb等常见数据库
6. 了解常见加密算法（rsa/des/aes/md5）
7. 了解常见反爬手段和机制（js混淆/webpack/ip封禁/）
8. 了解常见反爬手段的解决方案（日志插装调试/加密定位/调试干扰/补环境/ip封禁/扣代码）

项目经验

腾讯招聘、阿里招聘
项目描述：爬取腾讯招聘和阿里招聘的岗位名称、信息
责任描述：编写爬虫程序,想出反反爬策路，数掘清洗，分表存储，维护代理ip池
项目简介：
1. 爬取量较大，用scrapy-redis爬取，因为该框架实现url和数据去重、持久化、分布式比较方便
2. 采用隧道动态ip进行采集数据
3. 需要抓包并查找到对应的response
4. 数据保存在json字符申中，转化成python字典，提取数据
5. 在scrapy管道模块中，将数据保存到MongoDB
6. 使用logging模块编写监控程序进行爬虫监控，并根据日期定向输出日志到log文件
豆瓣、猫眼
项目描述：爬取豆瓣、猫眼电影名称、评分、导演主演和评论等信息
责任描述：编写爬虫程序，想出反反爬策略，数据清洗，分表存储，维护代理ip
项目简介：
1. 分析网页结构和所需数据的量，数据量少使用requests爬取
2. 使用浏览器开发工具对网页进行抓包，获取想要的数据
3. 对分析所获取的接口进行请求，将提取的数据存储为字典
4. 使用redis和hashlib模块，对数据做去重处理
5. 使用MongoDB和CSV对数据做持久化处理
6. 使用logging模块编写监控程序进行爬由监控，并根据日期定向输出日志到log文件