精通python爬虫和数据分析,能熟练处理字体反爬,js逆向等反爬,能根据需要爬取的数据进行需求分析,分析目标网站的网站结构和反爬手段,精通requests、scrapy、scrapy-redis、xpath、css、re、bs4等技术手段编写程序进行内容爬取,对爬取到的数据清洗过滤,将数据储存到mongodb,mysql数据库。
有盗墓笔记,boss直聘,腾讯招聘,京东,当当、豆瓣、猫眼、瓜子二手车,大众点评,新浪财经,斗鱼,有道翻译,百度翻译等知名网站的项目经验
由于爬取数量较多为提高爬取速度选择用scrapy-redis分布式爬取 首先先分析网页,需要从一级页面获取大标题和二级页面的url,从二级页面获取各章节名称和三级页面url,在三级页面获取小说具体各章节的文本呢内容,再编写爬虫程序,运用xpath解析,再保存数据,再settin
由网页源码中分析可知该网站由字体反爬,我们需要去找到他对应的字体文件去解析,得到一个替换字典,替换源码中的乱码字体。
由网页源码中分析可知该网站由字体反爬,我们需要去找到他对应的字体文件去解析,得到一个替换字典,替换源码中的乱码字体。