熟练掌握Python基础语言、有良好的的编程基础和编程习惯
熟练掌握和使用urllib、requests网络请求包、Aiohttp异步爬虫进行高并发抓取以及scrapy爬虫框架、pyspider爬虫框架、scrapy-redis分布式爬虫技术的实现。
熟练使用fiddler、mitmproxy等抓包工具的使用
熟练掌握正则表达式、xpath、css、BeautifulSoup等从结构化和非结构化的数据中获取静态页面的数据和数据清洗工作
熟练掌握Selenium、Phantomjs实现动态页面数据的抓取、模拟登陆等
擅长针对垂直数据抓取工作,对网站的反爬措施有一定的研究,JS逆向解决参数加密、解决网站自定义字体反爬、识别验证码、IP代理池、解决简单的极验滑动验证码等突破反爬虫防线
熟练爬取app端数据,利用appium自动化抓取数据,并基于Docker打造多任务抓取系统,提高抓取效率。必要时候,可以进行反编译爬取
熟练使用Mysql、Redis、MongoDB对数据的抓取进行存储
熟悉Python后端框架,Django、Flask,能够实现简单的web开发和后台管理,以及使用rest_framework实现api接口,并编写接口文档
企业信息获取
项目描述
该项目主要是基于Scrapy的分布式,爬取天眼查,企查查,等企业信息,将这些内容进行分类提 取并保存到数据库中,从而更好地满足客户需求
项目职责
1. 负责爬取关于企业信息并负责该项目的日常维护 2. 采用Scrapy-Redis分布式框架爬取目标网站 3. 设置下载延时与自动限速。 4. 使用第三方IP代理平台解决IP被限制问题 5. 随机 user-agent 、cookie池反反爬 6. 利用正则表达式和 XPath 从源码中获取复杂数据 7. 将获取到的数据分类、过滤、去重然后保存到 数据库 中 8. 并使用 Django framework 生成 API 方便其他部门调取数据