掌握Python基础语法,具备基础的编程能力;掌握Linux基本操作命令,掌握MySQL进阶内容。知识点包括Python基本语法规则及变量、逻辑控制、内置数据结构、文件操作、高级函数、模块、Python常用标准库模块、函数、异常处理、MySQL使用、协程等。掌握爬虫、数据采集、数据机构与算法,掌握人工智能技术。涉及的知识点有数据抓取、数据提取、数据存储、爬虫并发、动态网页抓取、scrapy框架、分布式爬虫、爬虫攻防、数据结构、算法等。
项目时间:2017-01到2011-10
项目名称:分布式爬虫爬取北京市企业信用信息网
项目描述:
项目介绍
这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
我的职责
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网