Hadoop、Yarn、Hdfs、MapReduce、Zookeeper、Hive、Hbase、Shell、MySQL、Impala、 Spark( Spark Core、Spark SQL、Spark Streaming)、Sqoop、Dolphinscheduler、Kerberos、Python、Java、Scala
中国xx客户网络服务数据分析平台
项目责任描述: 1. 参与数仓项目的分层设计; 2. 负责对数据进行清洗入仓;按照数据类型多目录输出,按天存储在指定目录,使用 hive 加载,按照数据日 期分区存储; 3. 负责使用 superset 报表对接预计算结果,并进行报表统计; 4. 负责 Dolphinscheduler 的维护以及绘制 DAG 进行任务的调度; 5. 参与对每层业务模块进行细分,进行预计算,Superset 报表系统;根据业务主题实现系统的定制报表功 能、即席查询功能; 6. 负责 kerberos 安全认证与 sentry 权限管理,实现多租户设计;
上海xx银行网络舆情监控系统
项目责任描述: 1. 负责统计并监控抽取率报表,根据报表结果,在抽取率降低的时候人工进行干预修正; 2. 根据正文抽取算法,模拟机器学习程序,实现实时正文抽取模板; 3. 负责实现正文的实时抽取以及正文数据写入 HBase 和 ElasticSearch,满足不同业务场景的使用; 4. 根据 Spark 抽取的正文,将结果保存到 ElasticSearch 中,使用 ES 结合 IK 分词器进正文数据的检索; 5. 负责 Python 脚本从 Redis 集群和人工配置表中导出正文模板规则文件并上传到指定目录;
1.大数据开发spark的数仓建设 2.Python 脚本从 Redis 集群和人工配置表中导出正文模板规则
创建自动化的网络舆情监控系统。实现了收集到的资讯中抽取出关于公司品牌的相关信息做 网络舆情监测,以便于处理自身品牌管理和危机公关,并且可以对信息内容进行预处理以及热点资讯共 享。支持业务人员对热点资讯的监控,可以及时了解舆论的风向,在舆论萌发期内将舆论影响力控制在最 小范围内。可