熟练掌握后端系统开发,存储系统以及中间件使用,拥有相当经验的后端系统开发经历。
熟练掌握 Django,Flask, Celery 等后端框架开发。熟悉大数据和云计算领域应用场景。 熟练掌握私有云、分布式存储、OpenStack 存储各组件代码、有开源系统二次开发能力和社区代码贡献经验。
陆金所•业务数据智能分析 2019年1月 - 至今
研发陆金所监控数据智能告警系统,主要解决监控过程中阈值痛点,结合数据的历史规律判断当前状态的合理区间,整个系统 包括多类型数据源抽取,打标系统,算法库完善,告警输出,进而完成整个数据流智能告警通道,同时也计划集成深度学习框 架融合多类型计算方法。
数据抽取的数据源包括elasticsearch,mysql,oracle,zabbix等包含交易数据和系统数据等不同指标;打标操作功能由数据库 中标记表实现,可自动打标和手动打标,打标完成可进行重新模型训练;算法库目前包含常用的统计学算法库,后面将引入 tensorflow作为算法引擎来丰富算法库;告警输入主要利用陆金所现有告警通道将AI告警输出给相应负责人。
技术框架有Django,ORM,python开源统计库, celery,tensorflow等
陆金所•业务数据落地、分析 2018年8月 - 2019年12月
主导生产环境的众多业务数据落地工作,包括nginx日志,cat日志以及监控数据,对于大批量的数据(nginx)利用spark- streaming批处理方式进行落地,对于数据量不太大的数据采集,利用celery框架去完成,数据采集与数据分析异步完成。
利用spark处理大批量数据,数据流通道由kafka作为streaming的输入经过处理之后再落入kafka中,再由flume将其落入到存 储系统,中间为保证数据的完整性和实时性,对kafka topic消费的lag进行记录并且增加redis对常用的k,v访问保存;数据量 不大的数据采集任务django-celery用于定时任务调度,并数据清洗,规则合并然后落库。
数据分析:采集后的数据主要保存在elasticsearch,对于es数据的监控分析用到开源的elastalert,elastalert好处在于可重新开 发其ruletype,用来满足自身数据格式要求。
技术实现基于 Django, celery,spark, elasticsearch,elastalert 以及机器学习等开源框架和系统做相应开发。 EasyStack•Openstack 文件存储高可用 2017年1月 - 2017年5月
为实现openstack文件存储通用驱动的单点痛楚,重新对 openstack 文件存储驱动二次开发工作(一万行代码量左右),替代单 虚机 NAS 服务器模式,采用多虚机完成主备方式访问机制,同时借助 OpenStack 环境下负载均衡模式完成 VIP 切换,底层存 储利用cinder的多点挂载完成数据共享,另外重新定义OpenStack manila一些核心概念,后端记录共享的数据库结构。