项目架构:jdk1.8+Maven+MySQL+MongoDB+Redis+Tomcat+SSM 框架+爬虫 框架 +Hadoop 框架
开发工具:idea
项目描述: 本系统从互联网采集数据并进行整理,用户可以方便快捷的查看数据,快速定位重大舆情信息,进行监测管理。本系统主要通过时间和区域两个维度及时发现相关舆情,以达到及时处理的目的。根据所设置分类,对信息进行整理。用户可自建简报,导出相关数据,整理上报。对于重大信息,以邮件发送、手机推送、电脑弹窗等方式及时发送给用户,以便及时掌握舆情,快速应对。
1、通过Jsoup,httpclient,htmlunit,selenium,OKHttp数据采集技术对微博、微信、论坛、报刊、新闻等网站信息将信息采大型招标数据采集集回来。
2、将数据用Redis去重、清洗入库。
3、将数据放入Hbase备份与存储。
4、负责特殊网页采集任务的分析及采集方案设计。
5、参与开发和优化分布式爬虫系统