掌握scala、java编程语言
掌握SparkMLlib,SparkRDD、SparkSql、SparkStreaming,,进行实时和离线分析
掌握传统机器学习算法(LR,GBDT, ALS, 决策树,随机森林, 贝叶斯,PCA,K-means)
使用MongoDB,redis,hive,hbase,Mysql等数据库
熟悉linux,flume,kafka,zookeeper
熟悉hadoop体系架构
项目一、漫客栈推荐系统
项目描述: 客户进入app,挑选漫画类型、收藏漫画、漫画评分,漫画购买等,根据用户平时的浏览习惯,用户喜好做相关推荐。
离线推荐:
使用SparkSql读取hive表数据,以漫画各类别人气统计,周点击率,总月票,总收藏,签约漫画总点击率,新作漫画周点击率,签约漫画周人气,新作漫画周人气,,VIP漫画周人气等各个维度统计,分别存入MongoDB表中
模型训练:ALS,逻辑回归
1:使用SparkSql读取用户历史评分表,使用ALS模型训练数据,计算预测评分,得到用户的评分推荐列表,并且还会得到漫画的隐形特征,计算漫画评分相似度列表,分别存入redis中,用于评分维度实时推荐
2:使用SparkSql读取用户历史收藏表,下载表,月票表,打赏表,组成用户喜好表,读取用户历史浏览表,对其进行一系列操作(是否喜好做0和1分类,添加特征字段,漫画名两两相关),对其特征组成稀疏向量,使用逻辑回归模型,计算特征权重,得出漫画特征权重表,根据漫画两两权重计算得出漫画喜好相似度列表,分别存入redis,用于喜好维度实时推荐
实时推荐:
1:用户登陆时,使用SparkStreaming直连Kafka,根据用户ID,读取redis用户评分推荐列表,获得一部分推荐漫画,读取redis用户最近喜好表,读取redis漫画喜好相似度列表,计算每个漫画得分,再从漫画特征权重表读取得分,计算总得分,获取一部分推荐漫画,然后存入MongoDB;
2:用户对某个漫画评分时,使用SparkStreaming连接Kafka,读取redis用户最近评分表,读取redie漫画评分相似度列表,获得此次评分漫画相似列表,作为备选列表,因为评分的高低不同,还需要进行一系列计算,得出最终的推荐得分,存入MongoDB
3:用户对某个漫画收藏,打赏等喜好行为,使用SparkStraming连接Kafka,读取redis漫画喜好相似度列表,获得此次喜好漫画相似度列表
项目二、广告精准投放平台
项目描述:本项目以广告投放引擎与Ad Exchange进行信息交互所产生的日志数据为基础,构建DMP,把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,标签化管理,为 DSP 等提供数据支持,使 DSP 获取更好的投放效果。
数据清洗:
读取hdfs中的数据,过滤出有效数据,将处理后的数据保存成parquet文件并采用Snappy进行压缩存储到hdfs。之后处理的数据都基于parquet文件进行处理。
报表统计:
读取hdfs上的parquet文件,从地域、运营商、网络类型、终端设备类型、操作系统等维度分析了展示量、点击量、终端设备类型、操作系统等维度分析了展示量、点击量、参与竞价数、广告成本等指标,分析广告的投放情况,将报表结果存入mysql中。
用户画像:
对用户的App 名称、渠道、设备、关键字(使用TF-ITF构建关键字停用词库)、渠道商圈信息等进行数据标签化,构建用户画像。利用Spark Graphx 图计算完成统一用户识别及上下文标签合并,实现用户标签归一化。 给用户的特征权重附上衰减系数,基于衰减系数与当日的标签进行计算,打上用户的最终标签,将最终结果存入ElasticSearch中。