1. 会使用Matplotlib、numpy、pandas等机器学习工具,对数据进行处理分析。
2. 了解一些基本的机器学习算法,如线性回归、逻辑回归等。
3. 会使用多种框架和工具如:Hadoop及其相关组件、数据仓库Hive、数据库HBase、计算引擎spark及其相关组件。
4. 熟悉MySQL、Redis等常用数据库。
玩物得志项目 推荐系统工程师
1. 构建用户画像和文本画像。
2. 使用TFIDF、TextRank实现文本的关键词、主题词的构建
3. 使用word2vec计算文本向量
4. 利用LSH算法实现文本相似度的计算
5. 利用ALS协同过滤模型进行离线召回
6. 使用spark引擎对用户行为日志进行实时处理 进行实时召回推荐