python, 爬虫scrapy框架, 多种反爬经验,新浪微博,知乎, 喜马拉雅Fm, 今日头条, 携程,cctv等出名一点的网站爬虫经验, 同时具备爬取视频,音频技术。
技术方面, xpath ,bs4, css提取数据方式。
数据保存, mongodb, redis数据库都可,或者本地csv,json文件也可。
定时爬虫脚本,实现自动化多次爬取。
chrome,PhantomJS 配合selenimu,实现自动化,页面下拉, 点击,输入等功能。
喜马拉雅Fm,通过首页的输入框,搜索关键字, 爬取所要的音频,同时记录音频的各项数据, 音频保存在本地。
新浪微博, 首先通过模拟登陆,在爬取微博评论, 了解评论风向。
全量爬取汽车之家论坛数据 网易新闻汽车资讯 今日头条新闻资讯 一点资讯 东方头条 使用自动化工具爬取个人征信报告
需求汽车之家论坛数据,主要是问答方面的数据,经过一番研究,发现网站的反爬手段是现在较为常见的字体反爬。 目前越来越多的网站开始使用字体反爬的手段来限制spider对网站的抓取。 做项目之前 也看了网上很多字体反爬的案列,但是基本都是针对一个单独页面,换一个页面就会出现
项目基于scrapy框架,异步抓取模式,抓取亚马逊购物网全站商品数据,数据字段包括商品一级id,商品二级id,商品名称,商品id,商品价格以及其他具体信息,以及每个商品所属的有效评论,评论星级,评论时间。