猿急送>

深圳其它兼职程序员

ID：141352

喵

爬虫工程师

公司信息：
鑫诚达资产管理有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（离职原因）

所在区域：
深圳
南山

技术能力

1. 精通python，熟悉C语言、HTML、CSS、Java，前端架构，了解JS、JQ
2. 熟悉TCP/IP,HTTP等网络协议
3. 精通使用requests、scrapy、selenium，能使用redis实现分布式爬虫
4. 精通网页爬取原理及技术，正则、XPath、bs4技术解析数据，熟练使用代理、延迟下载、简单字符验证码、滑动验证码等反反爬虫技术
5. 熟悉多线程技术，文件IO流
6. 熟悉数据库：MySQL、MongoDB、redis
7. 网络嗅探工具：Fiddler
8. 熟悉Linux基本操作
9. 熟悉XML，JSON解析相关技术

项目经验

项目一：企查查、天眼查、公积金网
项目简介：
根据公司逾期还款的客户提供的注册信息，爬取企查查、天眼查的工商信息，包括工商注册时间、资本、邮箱、法人、电话、注册地址、变更记录等修复信息，爬取公积金网近期缴费信息，提供给相关业务部门，便于催收员根据修复地址催收债务
描述：
1.使用requests、srcapy、selemium等技术编写爬虫程序
2.期间登录和爬取频率过高时需要滑动、点击图片中文验证码，其中登录的验证码使用携带登录信息的cookies避免登录验证码，使用IP代理反反爬验证码，使用超人打码平台破解验证码
3.使用xpath、正则解析结构，并对不规则的数据进行清洗
4.将监控爬取的log日志定向输出到log文件，以便查阅
5.爬取结束后，将处理后的数据存入MySQL数据库

项目二：赶集网
项目简介：
1.爬取赶集网深圳市地铁周边的租房信息，包括标题、价格、押付方式、户型、房屋配套和描述
2.考虑到信息量比较大，使用scrapy-redis实现url、数据去重，持久化、分布式爬取
3.设置UA、IP代理池，使用随机代理，反反爬技术
4.使用正则匹配url，xpath解析结构，获取对应请求和信息
5.爬取过程中，发现赶集网如果访问过频率，会设有滑动验证码，故设定延迟1分下载反反爬虫
6.将监控爬取的log日志定向输出到log文件，以便查阅
7.将爬取的数据缓存至redis数据库，减少爬取时的IO读写时间
8.爬取结束后，通过pymongo再将数据存入MongoDB数据库

项目三：拉勾网
项目简介：
1.根据职位关键字搜索，爬取拉勾网对应职位信息，包括职位名称、招聘公司、职位描述、工作福利、工作地址等信息
2.考虑到拉勾网的检测headers、访问频率等反爬机制，使用selenium模拟浏览器爬取每一页的职位信息，规避了繁杂的头部header请求设置，也可避免更换IP
3.使用xpath解析结构，获取对应请求和信息，正则匹配做数据清洗
4.爬取过程中，发现赶集网如果访问过频率，会重定向提示“网关错误”，模拟浏览器关闭错误页面，重新发送请求，继续爬取
5.将爬取的数据缓存至本地CVS文件存储