python爬虫

猿急送>北京后端兼职程序员>务夯>

案例列表

基本信息

案例ID：192244

技术顾问：务夯 - 2年经验 - 银科

联系沟通

微信扫码，建群沟通

项目名称：python爬虫

所属行业：文化娱乐 - 在线阅读

->查看更多案例

案例介绍

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解机器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责诉度URL管理器、下载器、解析器之间的协调：作。 URL管理器：包括待爬取的URL地址和已爬取白 URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、类据库、缓存数据库来实现。网页下载器：通过传入一个URL地址来下载区页，将网页转换成一个字符串，网页下载器有 urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(requests第三方包) 网页解析器：将一个网页字符串进行解析，可l 按照我们的要求来提取出我们有用的信息，也以根据DOM树的解析方式来解析。网页解析喜有正则表达式 (直观，将网页转成字符串通过机糊匹配的方式来提取有价值的信息，当文档比车复杂的时候，该方法提取数据的时候就会非常白困难）、html.parser（Python自带的）