1. 熟练使用 C 语言、Python 语言编写项目,对数据结构和算法设计有了解。
2. 熟练使用 MongoDB、Redis、Mysql 等数据库,了解 SQL 语句的优化。
3. 熟练使用 Scrapy、pyspider 等爬虫框架、以及 requests 库操作。
4. 熟练使用 charles、fiddler 等抓包工具 ,有手机 app 抓取经验。
5. 熟练使用 re、beautifulSoup、XPath、CSS 等网页信息抽取技术;
6. 熟练使用分布式爬虫 scrapy_redis、scrapyd 爬虫部署,爬虫框架开发经验。
7. 熟练使用团队协作开发工具 git。
8. 熟悉 selenium、PhantomJs、PIL、Pandas、numpy 等第三方库使用。
9. 熟悉 html5、javascript、Bootstrap 等前端技术。
10. 熟悉常见的反爬技术,解决过验证码问题。
11. 对 django、restframework、flash 等后端框架有所了解。
12. Linux 操作系统的使用,熟练掌握常用命令和调优监控手段。
企信数据采集 2017.06—2018.06
项目介绍:
对企查查、企信网、企查猫、天眼查、启信宝等企业信息查询平台的数 据挖掘。
项目职责:
主要负责企查查、天眼查、启信宝里企业信息数据爬取。
项目经验
1. 参与框架的筛选,反扒编程的编写,数据简单筛选。
2. 数据入库操,常用 MySQL、Mongodb数据库的储存。
3. 程序代码逻辑、功能的 debug调试。
4. 项目上传内部项目管理平台。 金融数据采集
根据给定的企业名单,采集该企业的工商注册信息:企业名称、统一社会信用代码、所属行业、运营状态、曾用名、经营范围、成立时间等信息。
采集中国海关总署的高级认证企业:统一社会信用代码, 企业名称, 信用等级, 所在地海关, 适用信用等级等信息。