猿急送>

广州后端兼职程序员

ID：196067

孤月独明

推荐算法工程师

公司信息：
爱藏网电子商务有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
广州
天河

技术能力

大数据相关方面：
熟悉推荐领域的机器学习和自然语言处理相关算法
熟悉 Hadoop、Hive、Storm、Spark 等大型分布式平台工具
熟悉 flume+kafka+storm/spark-streaming 流式计算框架
熟悉 zookeeper 分布式协调服务的使用
熟悉 etl 工具
Java 相关方面：
熟悉 struts2、springboot、spring、springmvc、hibernate、mybatis 等开发框架进行软件开发
其他方面：
熟悉 C#、Java、Python、Shell、scala 编程语言以及常用算法和数据结构
熟悉 mysql、Oracle、Sqlserver、redis、hbase、mongodb 等存储技术
熟悉 scrapy、appium 爬虫技术
熟悉 Maven、Svn、Git 等项目管理工具

项目经验

开发环境： pycharm+maven+python+Git
项目架构： hadoop+flume+kafka+hive+mysql+redis+python
项目描述：用户在 APP 和 web 中浏览，点击广告会留下大量数据，这些数据可以帮助系统开开发发者了解用户的个
人习惯从而向用户尽可能的推送其感兴趣的广告，该系统就是根据用户的点击记录和其注册的相似用户运
用协同过滤算法（CF,CB）向其推荐其可能会感兴趣的广告，同时对其主动搜索的内容进行 JieBa 切词，
对于无法命中的词组，运用 HMM 模型进行切词并准确匹配广告内容

责任描述： 1）写脚本采集用户日志到 flume 监控目录，该脚本通过 crontab 定时任务执行
2) flume 采集到的数据收集到 hdfs
3) 使用 etl 调度平台工具，将采集到的日志存入 hive 中
4) 利用 python 编程对用户的行为信息运用协同过滤算法（CF,CB）和 LR 线性回归算法将用
户的推荐列表矩阵存储到 oracle 中，将 LR 训练后的模型参数存入到 redis 中
5) 利用 python 编程加载候选集和模型，调用用户和物品服务，经过排序和取 topN 得到最终
的广告列表
6) 利用 python 编程对用户搜索的内容进行 JieBa 分词并匹配相应广告，对于不能识别的词组，
运用 HMM 模型（包含 Bayes 和 Viterbi 算法）进行切词并匹配合适物品给用户