用户行为数据流的采集聚合,以会话(session)为单位记录一个用户一段时间内的操作。用户操作囊括了页面流量,点击,风控服务。横跨pc,app,h5各平台。目前系统单数据处理耗时<1ms,单机tps可达8000,集群日处理量百亿级。 项目采用流水线式并发模型,内部工作者采用事件驱动模型处理数据。采用堆外内存(自研堆外内存管理)+mongodb+hbase三级存储模式。kafka消息中间件hermes进行数据消费和生产。设计字典可追加式压缩算法使数据压缩比达1:30