(1)熟悉Python,具有良好的研发经验;熟悉爬虫开发、基于Django的Web后台开发
(2)熟悉常用的数据结构和算法、计算机网络、Linux系统的基本操作指令
(4)熟悉Mysql、MongoDB等数据库基本操作;了解HTML、JavaScript等Web前端基础知识;
项目名称:代理池平台构建
项目描述:基于免费的代理网站,定向抓取其网站页面信息,经数据清洗后入库存储,以构建高可用代理池,并对外提供API接口。在此过程中,抓取了有代理、快代理等多个代理网站的数据,并通过验证其匿名类型、可用性以对代理池进行维护。
个人职责:
(1)基于对Python网络库的二次封装,实现了轻量级爬虫框架的构建,部分源码见:https://github.com/xinhaojing/Crawler
(2)采用该框架,抓取了多个代理网站的数据,并解决了开发过程中遇到的反爬虫问题。