后端:
Java8
Spring,SpringCloud,SpringBatch,JPA(Hibernate)
Redis,RabitMq
Mysql
前端:
H5,js,jquery,vue
Layui
微信小程序&ColorUi
做过数据量过亿的大型爬虫项目
爬虫使用二次封装的WebMagic框架
架构主要为任务分发中心,爬虫服务(多台主机),大数据批处理模块
任务分发中心主要功能是进行种子任务的调度,管理与分发,讲种子任务通过队列通过算法负载均衡转发到多台爬虫主机上,爬虫根据种子生成任务爬取对应页面,不同任务,不同页面定制不同规则将爬取的原始数据存入原始数据数据库,大数据批处理模块以及部分python脚本将原始数据经过处理,过滤,筛选,计算得到业务数据,保存到业务数据库。