Python 爬虫架构主要由五个部分组成,分别是 调度器、URL管理器、网页下载器、网页解机 器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责诉 度URL管理器、下载器、解析器之间的协调: 作。 URL管理器:包括待爬取的URL地址和已爬取白 URL地址,防止重复抓取URL和循环抓取URL, 实现URL管理器主要用三种方式, 通过内存、 类 据库、 缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载区 页,将网页转换成一个字符串,网页下载器有 urllib2(Python官方基础模块)包括需要登 录、代理、和cookie,requests(requests第三方包) 网页解析器:将一个网页字符串进行解析,可l 按照我们的要求来提取出我们有用的信息,也 以根据DOM树的解析方式来解析。网页解析喜 有正则表达式 (直观,将网页转成字符串通过机 糊匹配的方式来提取有价值的信息,当文档比车 复杂的时候,该方法提取数据的时候就会非常白 困难)、html.parser(Python自带的)