1利用python.根据需要爬取数据进行需求分析,遇到防爬从的网站,则运用防爬虫的手段。
2.利用python通过request,scrapy,xpath,re等技术手段编写爬虫程序进行内容抓取。
3.利用flume对数据进行数据收集和储存,最后上传到hdfs服务器上。
4.对抓取到的数据进行数据清洗过滤,方便后面使用。
5利用sqoop上传到mysql的数据库上。
6.web前端数据可视化,搭建本地服务器,对数据进行可视化处理,饼状图,柱状图等等。
爬取招聘网信息,旅游网信息网,游戏皮肤信息等等,对于你想要的信息都可以爬取出来
微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
把爬出来的数据可以传进mysql数据库最后可以进行数据化分析最后制作成可视图。
1.全国上市汽车公司的注册地,上市日期,总利润,净利润,业务类型,最后依次可视化了每个业务类型有多少家公司,
注册地分布在哪个地区,还有前六名公司的净利润图。
2. 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
3.知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
4. Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
5.新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。