掌握利用python的request库进行网页爬取,利用beautifulsoup/lxml解析网页源码,并提取所需数据等爬虫技术。
掌握利用scrapy框架构建分布式爬虫技术,掌握反爬技术,能够爬取AJAX,动态渲染的网页,并躲避大部分反爬机制。
掌握数据库交互技术,能够熟练操作MongoDB/Redis/MySQL数据库系统。
掌握数据清洗、数据分析技术,能够熟练地使用pandas、seaborn等库进行数据分析、数据可视化。
1.基于scrapy框架构建爬虫项目,爬取摄图网(https://699pic.com/)插画类目下的所有图片,将图片保存至本地,并以图片所属类型命名图片。(共计14000张图片)
2.基于scrapy框架构建爬虫项目,爬虫起点中文网(https://www.qidian.com/)月票榜类目下的所有小说数据,提取小说名、作者、书籍类型、连载状态四个字段,并将这些数据保存至MongoDB数据库中。
3.基于scrapy框架构建爬虫项目,爬取知乎热搜榜单(https://www.zhihu.com/billboard),爬取热搜新闻标题、搜索量、新闻简介这三个字段,将爬取的数据保存至Redis数据库中,最后进行数据清洗,数据分析。
摄图网(https://699pic.com)是一个提供免费正版高清图片素材的网站,网站保护多个图片素材板块,本项目的任务是获取摄图网插画板块下的所有图片素材,以用于自媒体平台的文案插图。 本项目是基于scrapy框架搭建的爬虫项目,同时获取图片两个不同尺寸的缩略图。
本项目任务为爬取起点小说网(https://www.qidian.com/rank/yuepiao/)中月票榜类目下的所有小说信息,爬取字段包括书名,作者,小说类型,更新状态;将爬取到的数据保存至MongoDB。