1.掌握 Java 开发,熟悉 Spring, Mybatis, Dubbo, Redis 等 Java 开源框架
2.有一定的数据爬取经验,前端开发经验。可以全栈开发。
3.熟悉 Hadoop 生态圈,对 Flume, Kafka, Spark 等大数据框架有一定了解
4.3 年以上 Linux 使用经验,熟悉 Python Shell 等脚本语言
5.扎实的数据结构与算法基础
私募数据中心
主要功能是由多个数据源采集数据到源数据库。并清洗数据到中间库,自动去重,合并然后产生映射表。最后由映射表产生结果库数据供公司各部门使用。
数据种类包括基金,公司,经理,净值,分红等。
并且有数据质量检测功能,检查出问题数据。
以一己之力完成项目从0到1的架构设计,核心功能开发与服务搭建。
项目分为三个模块,由三个微服务负责:
1. 数据采集
1. 将数据库、或爬虫抓取到的数据以增量的方法存到源数据库中。
2. 将数据转换成统一的数据格式存到中间数据库中。
2. 数据清洗与去重合并
1. 选取有效的数据,针对不同来源的数据进行去重合并。
2. 自动+手动处理,将结果存在映射表中。
3. 根据映射表产生结果库数据,结果库数据只用于展示,可在任何时候从中间库重新生成。
3. 数据展示与发布
1. 提供WEB界面
2. 提供数据同步接口、数据推送消息队列
从0到1的过程中负责了数据采集,数据去重与合并,数据展示等核心功能开发。
项目使用了Spring-boot, Mybatis, Shiro, Otter等开源框架与工具,同时使用了Elasticsearch进行文字分词与文字相似度分析。