java、python、scala等大数据技术,熟练搭建大数据应用框架,包括hadoop、yarn、zookeeper、kafka等。熟练使用spark、flink sql进行大数据数仓开发;熟悉spring boot的java web框架,会用该框架开发相关的简单web应用,了解基本的前后端知识; 会利用python进行爬虫等任务。
数仓迁移项目
参与公司大数据数仓的搭建与维护(从mysql数仓到大数据数仓),搭建的模块包括订单类、用户、公积金、社保、结算、贷后等。
参与大数据etl的工作,用datax/shell抽取数据、spark多任务进行数据同步。
参与处理结算和用户部分的报表。
负责从非cdh版本的集群迁移到cdh集群的版本。
负责实时数据接入和落地的confluent框架搭建。
负责模型接口对接和部署。
算法项目 -- 角色提取
项目时间:2018.6-2018.8
开发工具:python
背景:剧本中包含人物角色信息、地址、拍戏内容等。我们在文本抽取的时候往往需要关注剧本的主角和配角,以便接下来对剧情的分析。
项目职责:
业务部门的需求讨论。
整理相关实体命名算法的接口,测试算法的性能,选取最优。
参与讨论算法的设计,算法所涉及的接口包括jieba、ltp,利用分词、角色识别技术提取角色,数据清洗。
设置停用词库,整理人名库。
结合从清洗到提取优化的代码。
该案例主要做的是桌面gui,利用python 的tkinter、selenium等模块,完成定时自动化点击操作的功能。
该项目来自于github的蘑菇博客,该项目前后端分离,前端采用vue、css和html技术,后端采用spring cloud框架,这里我采用公司内部的完善框架改造,采用spring boot、分布式id、分布式事务(seata)、分布式锁、nacos、apollo等技术二次改造,