大数据相关方面:
熟悉推荐领域的机器学习和自然语言处理相关算法
熟悉 Hadoop、Hive、Storm、Spark 等大型分布式平台工具
熟悉 flume+kafka+storm/spark-streaming 流式计算框架
熟悉 zookeeper 分布式协调服务的使用
熟悉 etl 工具
Java 相关方面:
熟悉 struts2、springboot、spring、springmvc、hibernate、mybatis 等开发框架进行软件开发
其他方面:
熟悉 C#、Java、Python、Shell、scala 编程语言以及常用算法和数据结构
熟悉 mysql、Oracle、Sqlserver、redis、hbase、mongodb 等存储技术
熟悉 scrapy、appium 爬虫技术
熟悉 Maven、Svn、Git 等项目管理工具
开发环境: pycharm+maven+python+Git
项目架构: hadoop+flume+kafka+hive+mysql+redis+python
项目描述: 用户在 APP 和 web 中浏览,点击广告会留下大量数据,这些数据可以帮助系统开开发发者了解用户的个
人习惯从而向用户尽可能的推送其感兴趣的广告,该系统就是根据用户的点击记录和其注册的相似用户运
用协同过滤算法(CF,CB)向其推荐其可能会感兴趣的广告,同时对其主动搜索的内容进行 JieBa 切词,
对于无法命中的词组,运用 HMM 模型进行切词并准确匹配广告内容
责任描述: 1)写脚本采集用户日志到 flume 监控目录,该脚本通过 crontab 定时任务执行
2) flume 采集到的数据收集到 hdfs
3) 使用 etl 调度平台工具,将采集到的日志存入 hive 中
4) 利用 python 编程对用户的行为信息运用协同过滤算法(CF,CB)和 LR 线性回归算法将用
户的推荐列表矩阵存储到 oracle 中,将 LR 训练后的模型参数存入到 redis 中
5) 利用 python 编程加载候选集和模型,调用用户和物品服务,经过排序和取 topN 得到最终
的广告列表
6) 利用 python 编程对用户搜索的内容进行 JieBa 分词并匹配相应广告,对于不能识别的词组,
运用 HMM 模型(包含 Bayes 和 Viterbi 算法)进行切词并匹配合适物品给用户