熟练使用Requests、Scrapy、XPath、Bs4等常用爬虫框架工具进行开发;
熟练进程、线程、协程;
熟练使用常用数据库,包括MySQL、MongoDB等;
能处理常见反扒问题能力,熟悉常见的反爬技术如文本混淆反爬虫、验证码等;
熟悉scrapy爬虫框架,有 scrapy-redis分布式爬虫经验;
熟悉海量代理IP池建设,复杂验证码识别;
熟练掌握正则表达式、XPath等信息抽取技术。
有较强的主动学习能力、逻辑思维能力、分析并解决问题的能力;
较强的责任心及团队合作精神,有独立解决问题和快速学习并应用新技术的能力。
项目一 :
使用Scrapy爬取豆瓣图书短评
爬取豆瓣图书TOP250前2页的书籍(50本)的短评数据(包括书名、评论ID、短评内容),并存储成Excel。
网址链接:https://book.douban.com/top250
项目二:
使用Scrapy爬取当当新片榜
使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。
地址: http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1
项目三:
使用Scrapy爬取豆瓣新片榜
使用Scrapy来爬取豆瓣新片榜
地址:https://movie.douban.com/chart
使用任何框架来爬取豆瓣新片榜。在本课的练习中,我们使用Scrapy来爬取豆瓣新片榜。 地址:https://movie.douban.com/chart 需要修改 movie_spider.py 、items.py、settings.py、main.py文件
需要运用scrapy的知识,爬取豆瓣图书TOP250前2页的书籍(50本)的短评数据(包括书名、评论ID、短评内容),并存储成Excel。 网址链接:https://book.douban.com/top250 需要修改 cooments_spider.py 、ite
使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。 地址: http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1 需要修改 b