1. Python编码能力强。日常工作都使用Python编写爬虫和脚本。
2. 对于爬虫技术有很深的研究。以目前的技术能应对90%以上的网站。
3. 对linux系统使用相当熟练。配置开发环境和部署应用都离不开linux系统。
4. 学习能力强,热衷钻研技术,渴望技术的提升。
5. 善于沟通,勇于交流,乐于分享。
一. 基于Tensorflow的验证码识别程序
在做爬虫项目中,经常会遇到验证码人机识别的问题。在尝试普通的OCR由于效率而不能满足业务需求的时候,基于Tensorflow的验证码识别程序诞生了。通过构建CNN神经网络训练模型,将复杂到人都难以辨别的验证码完美攻破,最终达到99%的识别率。
二. Python调用phantomjs代码获取加密请求字段
某些的反爬策略会使用一些加密方法,如MD5,cookie限制等方式。但是在phantomjs和python的组合下,一切都形同虚设。
phantomjs使用无界浏览器打开目的地址,获取其中的加密字段构造请求,成功拿到数据。相比python+selenium自动化获取数据,这套方案显得更灵活,而且效率更高。