基本信息

案例ID:129698

技术顾问:Harry - 3年经验 - 华为

联系沟通

微信扫码,建群沟通

项目名称:文章阅读网站

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

开发环境: Python + Django + Requests
项目简介: 爬取微信,小红书,微博等各个平台的文章和图片,通过后台编辑发布为已所用,搭建django爬取系统,提供界面化操作
成果:
1.输入一个url即可爬去文章可图片
2.输入博主的名字即可爬取博主发布的文章
3.每天定时爬取关注博主的新文章
应用技术:
1.使用Scrapy框架,搭建爬虫工程;
2.使用Fiddler分析请求,抓取分析json数据,中间件配置代理池、IP、cookie等防止爬虫被禁;
3.使用Xpath数据抽取相关信息,数据存入MySQL做持久化处理;;
4.SQL语句进行处理重复项,缺失项,对各种非规范化的文本语言处理;
5.使用的Selenium模拟浏览器操作,提取源码;
6.破解加密算法,使用request模拟登录网站

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服