曾就职于爱奇艺,参与公司的推荐引擎,离线实时数据开发,主要负责后端服务,大数据离线实时数据开发,机器学习算法调研与开发。熟悉python, java, scala, 熟悉flask, django, spring, springboot,spring cloud, dubbo等web后端服务框架, redis, celery, kafka, rabbitmq等消息队列,spark, hadoop, hbase, hive等大数据工具,mysql, mongodb等数据库,熟悉nginx, zookeeper等工具。熟悉常见的机器学习算法,并对深度学习算法有所研究。
1. 利用flask框架构建 web 项目,让数据分析程序在后台运行,并利用ajax和websocket结合echarts在前端显示日志以及数据分析结果。
2. python自然语言处理,利用逆向匹配分词算法以及 CRF 条件随机场进行中文分词。
3. 利用 Doc2Vec 从 20000 份重复语料中找寻出 1 万 1 千份相似度较低的语料。
4. Scala, Spark 计算月点击率的归一化得分,并将 结果 DataFrame 保存到 CSV 中。
5. 利用 django, material css 框架搭建金融知识图谱前后端,实现命名体识别功能。利用 neo4j 构建经济人物知识图谱, 理解语义,实现可订制化的搜索服务。利用 Elasticsearch, 结合 django 构建搜索 restful api 服务, 利用 logstash 同步数据库,并利用 docker 搭建后端平台。
6. 分布式后端项目,关联机器人账号,每天随机发布一些内容,服务端基于 celery 异步框架实现后台系统,另外增加了代理线程池。
7. 自然语言处理项目,通过算法评估nlp 团队的分词工具,手写算法计算精准率,召回率,F1 值看分词工具能否在特定领域取得较好的效果。
8. 算法优化项目,通过已有数据,作品的标题,文章简介,推荐短语,对上述文本进行分词,并利用 DBScan 算法进行词聚类,筛选能代表文章作品的词语,利用word2vec 预训练好的大规模词向量数据,找寻之前聚类词语的相似词语,达到扩充代表作品词语库的目的,同时将这些词语全部转换成词向量,用这些词向量代表动漫作品,根据已有用户看过的作品,计算已用用户看的作品与其它作品的余弦相似度,推荐相似程度高的作品给已有用户,后续推广给少部分用户,做AB测试,提升效果。
9. 特征监控项目,通过大数据框架 spark,redis 中间件,监控训练模型数据,训练模型结果,起到自动报警效果。
10. spark流任务,处理kafka数据,对用户的喜爱作品进行排名,涉及cas等高并发分布式技术。
11. springboot推荐引擎,设计后端服务,涉及微服务架构,保证服务稳定高效运行。