对推荐系统,文本挖掘相关的算法都较为熟悉,入LR、xgboost、RF等。熟悉常用的编程语言,如 python/hql/shell/java/,熟悉常用的大数据框架,如spark/hadoop/hive/redis/tensorflow等这些工具的使用。
一、机器学习的文本反垃圾系统(目前日处理上亿条文本,每条平均处理时间<=40ms,准确率和漏报率均<1%)
1)主要负责系统的架构和模型的开发,模型开发包含,在线分类模型(基于词袋的分类模型(LR、RF)、基于用户行为的分类模型(RF))、实时聚类模型(基于文本特征的聚类模型、基于文本相似度的聚类模型)。
二、个性化推荐系统(日处理亿级请求,推荐转化率在60%以上),主要的模型包括:
1)点击率预估模型,基于hive+spark框架实现,算法包括LR和 GBDT+LR
2 ) 协同过滤模型,基于hive+spark框架实现,主要是构建用户兴趣得分模型+Iterm_CF
3)xgboost模型,基于python scikitlearn框架实现。
4)WDL模型模型,基于tensorflow框架实现,主要算法是 LR+DNN。