熟悉 Python 爬虫系统的设计,能编写高质量网络爬虫,识别常见验证码(爬取过知乎,淘宝等网站数据)了解 Celery 分布式爬虫机制。深熟练掌握全栈开发,对后端到前端的技术原理有全面的认识,熟悉网站开发流程,能够独立搭建完整的网站。
深入理解数据结构与算法,并能够实现哈希表、链表、队列、栈、二叉树等数据结构。
扎实的 Python 基础,熟悉文件 I/O、多线程、装饰器、基础数据结构及模块化。
使用 GitLab 等工具对项目进行持续集成,保证项目能够快速上线以及及时回滚
设计 MySQL 基于 XXX 搭建主从架构,使用 Mycat 实现分库分表、读写分离以及高可用
熟练基于 Scrapy 框架进行分布式爬虫,利用 Xpath,BeautifulSoup,Re 库进行数据清洗,并解决验证码,登录,Javascript混淆,等各种反爬措施。
项目时间:2017-01到2011-10
项目名称:分布式爬虫爬取北京市企业信用信息网
项目描述:
项目介绍
这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
我的职责
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网