主要掌握后端开发相关的技术栈:
语言方面掌握golang,java,python等编程语言
中间件方面掌握redis,kafka等常用中间件
有过k8s搭建经验,熟悉k8s等相关组件
熟悉阿里云中ECS,OSS,SLS等相关产品的使用
熟悉mysql以及clickhouse数据库的使用
快手AI平台数据仓库:
对快手AI平台亿级别的数据进行打点,聚合,收集,展示。
其中涉及的业务表众多,需要复杂的表链接操作。
并且数据量大,对数据查询响应实时性要求高,必须针对性的进行预聚合,落盘高维数据。
实现方案:
1.数据同步:通过监听mysql binlog的方式,实现对业务无损的数据同步方式,在数据同步后,发送到kafka指定的topic中,消费器使用clickhouse自带的消费组建,实现中间表的构造。
2.中间表加工:在得到中间宽表后,按照业务需要的方式对中间表进行预先聚合操作,使高维数据落盘,提高查询的性能。
3.数据展示,书写对应的查询sql,来提供给前端进行调用,提供分页查询等功能。
阿里云数据识别框架:
对阿里云上各种资源实现统一识别,打标,归档等操作。
用户的资源类型多,资源量大,很可能出现扫描周期过长。
1.首先在用户资源能够正常连通的情况下,在扫描过程中进行并发扫描,获取完数据之后,将数据发送到识别集群中,识别集群识别完数据的结果后,将结果发送到kafka中,然后由消费程序将其中的结果消费,落在数据库中。
2.由于识别任务具有高峰低谷特性,所以我们的识别集群资源也根据任务的密度进行动态调度,具体是由k8s的HPC监控pod的平均cpu使用量来实现的。