猿急送>

杭州其它兼职程序员

ID：325273

你失散多年的猫桥

数据开发工程师

公司信息：
阿里巴巴

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
杭州
余杭

技术能力

1. 对接运营/产品的需求，快速理解需求，利用SQL进行数据开发，产出报表。
2. 熟练掌握大数据技术的应用，DataX，spark，hive，flink，kafka等。
3. 掌握数据仓库建模和分层，能搭建高质量数据模型。
4. Python处理数据，包含json，excel等。
5. 有一定的SpringBoot开发能力，有UDF函数开发经验。

项目经验

项目描述： (携程大住宿数据分析平台) 数据源为携程海内外各渠道母子酒店的订单信息，对数据进行清洗入仓
之后，追踪酒店间夜数计算业务指标，并进行可视化报表展示。
项目职责：
 数据研发：计算携程酒店业务指标，开发极速查询 BI 报表。
 基于 Spark（Java）实现随机抽取算法计算指标，并设计 DQC 任务监控数据浮动，保证数据质量。
 基于 Spark Streaming + Redis 生成实时动态黑名单，并从 Redis 中获取黑名单过滤数据。
 将数据写入 StarRocks，根据需求设计 StarRocks 模型，并创建物化视图，索引优化来加快查询。
 建立抽象数据模型，并设置人酒权限，开发 ArtNova BI 报表。
 任务优化：优化批处理和报表任务，保证集群稳定。
 对 Spark 进行内存调优（JVM），优化占用集群资源多和执行速度慢的 Spark 任务。
 对 StarRocks 和 Hive 数据集进行分布式 SQL 调优，加快报表查询速度。
涉及技术： Spark， StarRocks， Hive， Presto， Datax， Redis

项目描述：为了区分不同的本体关系在计算相似度时的特征，进行相关性分析。为了对海量文本进行自动分
类，结合大数据引擎设计了相似度并行算法，提高计算效率并具有很强扩展性。
项目职责：
 相似度算法 (DIF)：基于相关性分析不同语义链接，设计特征相似度计算方法，结果准确度达到 94% 。
 文本并行算法：基于 MapReduce 引擎，设计文本相似度并行算法。
 结合 DIF 预先计算本体所有特征间的相似度。
 将点对点相似度转化成特征对文本相似度，然后聚合得到文本间相似度，结果计算效率提升 70 倍。
涉及技术： Hive， Hadoop， Sklearn， Spss