为满足业务需求,需要将十万级别的数据进行秒级聚合,并满足如下条件:
1、系统数据处理量平均在万/秒,峰值在30w/秒,整体数据时效性要求5分钟以内
2、保证数据的准确性,如果发生数据错误,需要在小时级恢复(3小时以内)
3、定期进行数据校准,并能恢复不一致的数据
基于flink和spark引擎,和doris、redis等存储中间件,实现了一套流批一体的lamda架构,实现百万级数据的秒级聚合处理,整体时效性控制在3分钟以内,同时能够进行快速数据回滚和天级的数据一致性校准能力。
整体架构和落地开发均由我独立完成,并顺利应对了当年线上最大的促销活动