主要工作经验为Python爬虫,也写过Python后台服务,写过一段时间Java Web.
· 熟悉HTTP、HTTPS等网络协议及数据抓包、分析
· 熟悉使用MySQL、Redis、MongoDB、Couchbase、PostgreSQL等常见数据库
· 熟悉反爬虫机制,处理账号限制、复杂验证码、模拟登陆等疑难问题的处理
· 熟悉基于正则表达式、xpath、CSS等的网页内容抽取
· 熟悉多线程、分布式爬虫
使用过的技术及工具:
Scrapy、Requests+Gevent、Flask、Message Queue、Xpath、Beautiful Soup、xml、RegExp、PyV8、Redis、PostgreSQL、Couchbase、Selenium + phantomjs、BloomFilter等。
【企业数据采集】
· 采集企查查、天眼查企业数据(包括工商信息、法律诉讼、企业图谱、知识产权等)
· 使用Selenium+webdriver处理登陆,模拟滑块验证码拖动
· 使用MongoDB存储
· 最多200台虚拟机同时采集
突破以下主要反爬措施:
封IP、账号频次限制、普通selenium+webdriver被拦截问题、滑块验证码。
主要使用工具和软件:
Python、Selenium、Redis、Tornado、MongoDB、Requests、OpenCV、Beautifulsoup