开发环境: Python + Django + Requests
项目简介: 爬取微信,小红书,微博等各个平台的文章和图片,通过后台编辑发布为已所用,搭建django爬取系统,提供界面化操作
成果:
1.输入一个url即可爬去文章可图片
2.输入博主的名字即可爬取博主发布的文章
3.每天定时爬取关注博主的新文章
应用技术:
1.使用Scrapy框架,搭建爬虫工程;
2.使用Fiddler分析请求,抓取分析json数据,中间件配置代理池、IP、cookie等防止爬虫被禁;
3.使用Xpath数据抽取相关信息,数据存入MySQL做持久化处理;;
4.SQL语句进行处理重复项,缺失项,对各种非规范化的文本语言处理;
5.使用的Selenium模拟浏览器操作,提取源码;
6.破解加密算法,使用request模拟登录网站