1. 对接运营/产品的需求,快速理解需求,利用SQL进行数据开发,产出报表。
2. 熟练掌握大数据技术的应用,DataX,spark,hive,flink,kafka等。
3. 掌握数据仓库建模和分层,能搭建高质量数据模型。
4. Python处理数据,包含json,excel等。
5. 有一定的SpringBoot开发能力,有UDF函数开发经验。
项目描述: (携程大住宿数据分析平台) 数据源为携程海内外各渠道母子酒店的订单信息,对数据进行清洗入仓
之后, 追踪酒店间夜数计算业务指标,并进行可视化报表展示。
项目职责:
数据研发: 计算携程酒店业务指标, 开发极速查询 BI 报表。
基于 Spark(Java)实现随机抽取算法计算指标,并设计 DQC 任务监控数据浮动, 保证数据质量。
基于 Spark Streaming + Redis 生成实时动态黑名单, 并从 Redis 中获取黑名单过滤数据。
将数据写入 StarRocks,根据需求设计 StarRocks 模型,并创建物化视图,索引优化来加快查询。
建立抽象数据模型,并设置人酒权限, 开发 ArtNova BI 报表。
任务优化: 优化批处理和报表任务,保证集群稳定。
对 Spark 进行内存调优(JVM) , 优化占用集群资源多和执行速度慢的 Spark 任务。
对 StarRocks 和 Hive 数据集进行分布式 SQL 调优,加快报表查询速度。
涉及技术: Spark, StarRocks, Hive, Presto, Datax, Redis
项目描述: 为了区分不同的本体关系在计算相似度时的特征,进行相关性分析。为了对海量文本进行自动分
类,结合大数据引擎设计了相似度并行算法,提高计算效率并具有很强扩展性。
项目职责:
相似度算法 (DIF): 基于相关性分析不同语义链接, 设计特征相似度计算方法, 结果准确度达到 94% 。
文本并行算法: 基于 MapReduce 引擎, 设计文本相似度并行算法。
结合 DIF 预先计算本体所有特征间的相似度。
将点对点相似度转化成特征对文本相似度,然后聚合得到文本间相似度,结果计算效率提升 70 倍。
涉及技术: Hive, Hadoop, Sklearn, Spss