我开发推荐系统,在5台服务器上,部署一套Linux,Apache,MySQL主从备份集群,OracleRAC集群,Redis分布式集群,PHP7服务,使用Nginx做基于轮询策略的负载均衡,使用keepalived做IP漂移
后端使用Python,shell开发,后端程序的管理使用ct框架,后台任务的运行有错误告警机制
前端推荐接口开发,失败的请求会触发邮件告警机制,成功的请求会记录在日志文件
数据处理方面,对于日志文件使用awk脚本及python脚本,同时也会定期导入到自己搭建的hive数据库中,使用spark和Python做数据挖掘;用户行为数据,由客户端写入到自己搭建的kafka集群,读取kafka以写入hive,或以lftp,rsync等方式同步文件,再将文件解析。
算法方面,对于app或资讯,视频的标签,正文,使用Python的分词算法,如jieba算法,tf–idf算法,辅之以标签关系构建等知识图谱策略,将关系及实体存入neo4j数据库,使用PHP接口调用
推荐策略方面,基于用户行为偏好,基于商品协同关系,基于时效,基于热度,基于人工干预
接口性能日请求量平均600万,时延20-50ms
周报月报,使用vba将hive查询出来的数据处理
测试方面,使用jmeter测试接口并发性能
信息流垂直频道开发
竞价CPD开发
必备应用推荐开发
我开发推荐系统,在5台服务器上,部署一套Linux,Apache,MySQL主从备份集群,OracleRAC集群,Redis分布式集群,PHP7服务,使用Nginx做基于轮询策略的负载均衡,使用keepalived做IP漂移
后端使用Python,shell开发,后端程序的管理使用ct框架,后台任务的运行有错误告警机制
前端推荐接口开发,失败的请求会触发邮件告警机制,成功的请求会记录在日志文件
数据处理方面,对于日志文件使用awk脚本及python脚本,同时也会定期导入到自己搭建的hive数据库中,使用spark和Python做数据挖掘;用户行为数据,由客户端写入到自己搭建的kafka集群,读取kafka以写入hive,或以lftp,rsync等方式同步文件,再将文件解析。
算法方面,对于app或资讯,视频的标签,正文,使用Python的分词算法,如jieba算法,tf–idf算法,辅之以标签关系构建等知识图谱策略,将关系及实体存入neo4j数据库,使用PHP接口调用
推荐策略方面,基于用户行为偏好,基于商品协同关系,基于时效,基于热度,基于人工干预
接口性能日请求量平均600万,时延20-50ms
周报月报,使用vba将hive查询出来的数据处理
测试方面,使用jmeter测试接口并发性能
角色 | 职位 |
负责人 | 高级PHP开发工程师 |
队员 | 产品经理 |
队员 | 前端工程师 |
队员 | 后端工程师 |