本实验应用scrapy框架和xpath爬取糗事百科的作者及内容,并将其存储到csv文件及txt文件中。
原理:
(1)scrapy概述:
框架是一个集成了很多功能并且具有很强通用性的一个项目模版。Scrapy框架是爬虫中封装好的一个框架。Scrapy的功能:高性能的持久化存储,异步的数据下载,高性能的数据解析。
(2)scrapy框架的基本使用:
windows环境的安装:
①pip install wheel
②下载twisted
③安装twisted
④pip install pywin32
⑤pip install scrapy
构建工程
①创建糗事百科工程:scrapy startproject qiubaiPro
②进入到工程目录,在spider子目录中创建爬虫文件
scrapy genspider qiubai https://www.qiushibaike.com/text/
③执行工程 scrapy crawl qiubai