基本信息

案例ID:221852

技术顾问:zero. - 1年经验 - 盛顺

联系沟通

微信扫码,建群沟通

项目名称:新浪新闻scrapy爬虫

所属行业:教育 - 职业技能

->查看更多案例

案例介绍

1.创建项目
2.新建任务
3.修改配置文件 [setting.py]
只需要用到4个配置数据 [1.UA伪装 2.robot协议 3.并发数量 4.管道保存]
# UA
# 爬虫君子协议
# 开启并发,多任务爬取
# 管道保存,自定义保存方
4.设置爬取内容 [items.py]
# category:类别 subcategory:子类 article:文
5.编写爬虫

# 在主页里获取到大类/小类的标题/链接
# 大类
()

# 小类)

# 创建文件夹 --> 遍历大类/小类

# 下一步获取小类主页里的数据
# 接着调用另一个函数[sub_parse] meta参数为传参,把item数据交给函数继续使用
# 解析小类页面里的内容 [提取主页里的文章信息.]
# 偷懒办法.先获取所有a标签.再筛选
urls = res.xpath('//a/@href').getall()
# 筛选条件 1.后缀为.shtml 2.是否为新浪网站,第三方不爬取 [是否携带了大类别的网址]
# 满足条件的数据就放入到文章链接里. 并调用文章解析函数.
# 解析文章内容 [标题/网址/内容
# 提取文章标题
# 提取文章内容 不同的文章主页class/id不一样
# 使用xpath的or语句.识别多种情况 contains判断值是否为XX
# 有的网站文章正文用的id叫article 有的网站正文用的是class叫artibody
# 把文章标题/内容添加到item里
6.编写项目管道

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服