ID:213846

景鑫

大数据工程师

  • 公司信息:
  • 阿拉丁
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

 理解并掌握Java编程原理,熟悉Java虚拟机基础知识
 掌握python语言编程基础,了解selenium、scapy爬虫编写,了解django web框架
 熟练使用Linux操作命令,掌握基本的shell脚本编程
 熟悉Hadoop生态圈常用工具信息,对Hadoop、HBase、Hive、Spark、Flink工具熟练应用
 熟悉elasticsearch大文本搜索技术
 理解HBase工作原理和运行原理
 理解Hive工作原理,熟练常用HiveQL语句,掌握编写UDF函数编写

项目经验

项目一:预购行为分析系统
所用技术:hadoop、hive、hbase、sqoop、Python、Spark
开发环境:eclipse、pycharm 2017.03、jdk 1.8.0、mysql 5.1.10、maven 3.5
项目描述:通过Python按指定网址范围爬数据,将原始信息存入HDFS中。对采集的数据进行处理,将信息来源与内容存入hbase中。编写自定义hive UDF函数,对用户回复信息进行中文分词处理。通过HiveQL对数据进行分析统计,将统计结果存入Hive内部表内,通过Sqoop将结果导入至Mysql,供前台用户使用。
负责模块:
 将原始数据csv文件中的内容通过Java调用,再通过HDFS API上传至HDFS指定文件夹
 地址生成库:MapReduce清洗数据,取出一级网址名称,取出最长网址名称,通过正则表达式去除记录图片、文件的网址和空网址,去除非用户行为数据
 对原始数据中每个网址的内容利用现有的庖丁解牛包进行中文分词:
(1) 了解庖丁解牛中文分词工具
(2) 利用庖丁解牛中文分词工具编写hive UDF自定义函数
(3) 编写对业务数据进行中文分词处理的hiveQL语句Demo,供项目组参考使用
 整理地址库:对行为地址进行分类,对产品地址进行分类,提取行为地址分词数据
 Mapreduce程序部分:
(1)数据清洗:使用mapreduce中的map程序(不使用reduce)去除原始数据中不符合规定数据格式数据,及非用户主观行为(广告,配置数据等)数据。
(2)行为匹配:MapReduce关联行为地址库识别用户访问行为,标识用户行为分类。
(3)用户行为统计:统计用户行为地址访问次数,识别用户高频访问地址。
(4)整体行为统计:统计热门地址,用户访问最多地址及访问人数。
(5)产品匹配:关联产品地址库标识用户行为匹配中的产品地址。
(6)用户产品统计:统计用户高频访问地址。
(7)整体产品统计:统计产品整体热门程度。
(8)用户行为top提取:提取用户高频地址,用于缩小数据范围,用户整体行为地址数据量比较大,不利于关系数据库存储。
(9)用户行为画像:关联行为分类数据统计用户各分类情况。
(10)预购用户群提取:从行为匹配数据中提取预购用户群。
 Spark程序:
(1)协同过滤:根据用户数据访问情况,利用协同过滤算法为用户对产品的喜好打分,评估喜欢程度。
(2)产品相似:关联产品分类数据,对未能协同过滤推荐用户提取访问产品,根据产品分类推荐相似产品。
(3)关联规则:分析用户产品访问的关联规则模型,根据关联规则模型对用户的访问情况进行产品推荐。
 Hadoop平台调度脚本执行项目功能:定Shell脚本,用于程序调度、启动mapreduce和spark程序。
 程序部署:Mapreduce程序和spark程序导出jar包,与sh调度脚本部署到同一工作目录即可。
项目二:yl定制明星智库-定制代言人选择系统的用户价值
所用技术:spark、hadoop、hive
开发环境:pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive
项目描述:通过收集到的明星信息,对已代言明星进行舆情监控以及热度分析,把握艺人实时热度变化,通过代言人优选,根据品牌调性以及明星调性的相符程度,筛选品牌意向代言人,提高决策效率。
数据流向: MongoDB->hive->spark(计算)->mssql
负责模块:
 微博舆情分析
(1) 使用mongo-spark-connector官方连接器,通过spark读取MongoDB中微博评论数据,并将数据保存到原始层,确保没问题后删除MongoDB中数据,缓解MongoDB压力。
(2) 使用jieba对微博评论内容进行分词,并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存,其中分词结果使用array<map>格式保存。
(3) 通过集群框架,实现tfidf算法
(4) 对形容词使用tfidf算法分析热词,对情感分析结果按区间进行统计并计数。
(5) 将最终结果使用foreachPartition算子,存入mssql临时数据表。
(6) 使用MERGE语句对线上表进行更新。
 全部新闻信息展示(大文本搜索)
(1) 将新闻类数据(百度新闻、头条新闻、微信公众号等)导入hive原始层,删除mongodb数据。
(2) 对数据进行清,清洗后存入hive。
(3) 对新闻数据进行分析(nlp、统计等),结果导入mssql数据表
(4) 按照需求将需要

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服