猿急送>

深圳其它兼职程序员

ID：320253

hoosu

数据工程师

公司信息：
万翼科技有限公司

工作经验：
7年

兼职日薪：
1000元/8小时

兼职时间：
周六
周日
可工作日远程
可工作日驻场（离职原因）
可工作日驻场（自由职业原因）

所在区域：
深圳
南山

技术能力

7年工作经验。熟练使用scrapy、aiohttp、asyncio、ﬂask、requests等库，掌握mysql、MongoDB、redis等数据库在爬虫中的运用，linux下爬虫开发部署。处理js逆向、图片验证码、文字样式加密，ip封禁，账号登录等反爬虫问题。熟练使用pyth on多进程+协程高并发。涉及dl，可手写分类问题源码。

项目经验

需要实时更新上述两个网站最新披露的数据，两个网站存在很多可用信息，爬取量大，时效性要求较高
2.技术手段以及实现思路
a.考虑数据量大，主要为结构化数据，使用mysql数据库，pymysql便于操作，代理池proxypool提供代理数据避免ip封禁b.针对两个网站的项目，建立两个scrapyproject，两个项目实现思路一样。考虑以后会新增其他数据需求，start_requests里面使用主域名。针对不同数据需求分析页面，在生成的新请求里面调用不同的parse函数
c.设置异常处理情况，遇到异常时，记录异常信息保存到本地便于后期分析，setting里面注释钓默认的中间件
d.以上架构综合考虑了反爬虫机制，易于修改代码后增加后期数据需求，容错机制等

案例展示

银行验证码统一处理

1.项目背景公司利用arp机器人完成自动报账，登录需要网盾+验证码的输入，我负责处理验证码问题 2.技术手段以及实现思路 a.银行验证码大多是数字和字母的组合，为提高准确率降低训练速度，采用切割之后再训练的方式 b.不同网站验证码字体特征不一样，分别抓下来500个验证码
债券网、货币网所有债券发行数据

1.项目背景需要实时更新上述两个网站最新披露的数据，两个网站存在很多可用信息，爬取量大，时效性要求较高 2.技术手段以及实现思路 a.考虑数据量大，主要为结构化数据，使用mysql数据库，pymysql便于操作，代理池proxypool提供代理数据避免ip封禁b.针对两个