ID:325273

你失散多年的猫桥

数据开发工程师

  • 公司信息:
  • 阿里巴巴
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 余杭

技术能力

1. 对接运营/产品的需求,快速理解需求,利用SQL进行数据开发,产出报表。
2. 熟练掌握大数据技术的应用,DataX,spark,hive,flink,kafka等。
3. 掌握数据仓库建模和分层,能搭建高质量数据模型。
4. Python处理数据,包含json,excel等。
5. 有一定的SpringBoot开发能力,有UDF函数开发经验。

项目经验

项目描述: (携程大住宿数据分析平台) 数据源为携程海内外各渠道母子酒店的订单信息,对数据进行清洗入仓
之后, 追踪酒店间夜数计算业务指标,并进行可视化报表展示。
项目职责:
 数据研发: 计算携程酒店业务指标, 开发极速查询 BI 报表。
 基于 Spark(Java)实现随机抽取算法计算指标,并设计 DQC 任务监控数据浮动, 保证数据质量。
 基于 Spark Streaming + Redis 生成实时动态黑名单, 并从 Redis 中获取黑名单过滤数据。
 将数据写入 StarRocks,根据需求设计 StarRocks 模型,并创建物化视图,索引优化来加快查询。
 建立抽象数据模型,并设置人酒权限, 开发 ArtNova BI 报表。
 任务优化: 优化批处理和报表任务,保证集群稳定。
 对 Spark 进行内存调优(JVM) , 优化占用集群资源多和执行速度慢的 Spark 任务。
 对 StarRocks 和 Hive 数据集进行分布式 SQL 调优,加快报表查询速度。
涉及技术: Spark, StarRocks, Hive, Presto, Datax, Redis

项目描述: 为了区分不同的本体关系在计算相似度时的特征,进行相关性分析。为了对海量文本进行自动分
类,结合大数据引擎设计了相似度并行算法,提高计算效率并具有很强扩展性。
项目职责:
 相似度算法 (DIF): 基于相关性分析不同语义链接, 设计特征相似度计算方法, 结果准确度达到 94% 。
 文本并行算法: 基于 MapReduce 引擎, 设计文本相似度并行算法。
 结合 DIF 预先计算本体所有特征间的相似度。
 将点对点相似度转化成特征对文本相似度,然后聚合得到文本间相似度,结果计算效率提升 70 倍。
涉及技术: Hive, Hadoop, Sklearn, Spss

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服