系统采用java平台编写,以postgresql为存储源,采用多线程协调控制,主从结构模式; 主节点集中式存储metadata,调度、显示整个系统的运行状况,主要包括爬虫监控、周期性任务调度作业启动、DB维护、资源清理等Daemon线程; 爬虫节点执行具体的爬虫任务,主要包括心跳、任务填充、任务工作、任务完成、任务重启、任务取消、任务删除等Daemon线程; FileServer存储爬取文件,执行数据清洗等后处理过程。
系统主要采集淘宝、天猫、京东、苏宁、国美、唯品等国内top10电商平台的页面分析,主要采集平台商品信息、评论信息、邮费信息等。