大数据框架: Flink、Spark、Hive、HBase、Kafka、Hadoop、Zookeeper
前后端框架:Flask、Django、Spring、Vue、React
数据库:MySQL、Redis
工具:Docker、 Git、Linux
编程语言:Python、Java、Scala、SQL
外语: 大学英语六级,能流畅阅读英文文档
优惠券促活大数据模型
原来优惠券是采用固定规则发送给用户,规则不灵活,促活转换率不高,故基于用户历史订单设计一个大数据模型提高转换率和减少成本
1. 与业务方协商模型产出结果与线上实时数据对接,确定对接方式和整体模型结构
2. 针对历史业务抽取上百维度数据,在历史数据上进行训练验证,优化模型准确率达到90%以上
3. 实时监控优惠券转换率,最终模型节约了90%成本,提高了10%的转换率
文书检索项目
文书数据存贮在MySQL数据库中、由于数量在两千万左右(每天都有更新)、普通的SQL检索性能太慢、所以使用Spark批量处理数据并导入的ElasticSearch中进行检索
1. 采集行政规划数据并改造Aho-Corasick算法、实现文书地理行政规划判断、解析速率单核最终为2ms每篇
2. 负责编写Scala程序实现对每天新产生的文书解析并导入ES中、优化速率最终速率单节点100篇每秒
3. 设计动态拼接DSL、优化查询客户数据匹配、准确度提升2倍左右<
处罚文书分类系统
需要搭建一套集采集以及分类的系统来自动获取并分类处罚文书的所属公司,并搭建一套审核系统来人工审核分类是否准确
1. 设计一套通用爬虫框架支持增量和全量更新政府公开信息
2. 基于贝叶斯模型设计一套简单高效的分类器,判断文书是否为处罚的准确率90%以上
3. 基于Flask和Vue搭建了一套响应式界面来提供后台审核人员确认文书是否分类准确
业务方后台需要搭建一套日志导入以及查询系统,总数据量在1PB左右,需要支持超过500G日志导出 1. 设计了一整套大数据处理程序,使用Spark,支持PB级数据导入HBase 2. 设计了一套基于Spring Boot的web界面,支持提交任务并导出用户详细日志
原始计算平台依赖SQL存储过程,吞吐量低、开发维护困难,进过调研各种实时计算平台,最终决定基于Flink搭建一套集开发以及监控的计算平台 1. 在迁移历史项目的时候发现,一个单一的Flink Job开发涉及到代码编写、编译、包上传、查看日志等多个步骤,开发周期以周为单位,