1,有扎实的数据结构和算法功底;
2、工作认真细致踏实,有较强的学习能力;
3、熟悉 linux 开发环境,熟悉 python、java、c++任一语言;
4、理解 http,熟悉 html, DOM, xpath, scrapy框架 优先;
5、有数据库使用经验,理解关系式数据库,会画 ER 图;
6、有爬虫,信息抽取,文本分类相关经验者优先;
7、了解 Kafka、ElasticSearch 优先
中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。