熟悉机器学习、nlp相关算法以及sklearn、sparkmllib、tensorflow等工具;
熟悉python语言及tornado、scrapy、celery、django、twisted框架; 熟悉java语言及springMVC、netty框架; 熟悉mysql、redis、mongodb、cassandra、hbase等数据库;
熟悉hadoop、elasticsearch、spark等大数据相关技术;
熟悉linux系统开发环境,熟悉nginx、 haproxy、tomcat等WEB服务器, 熟悉rabbitmq消息队列服务;
熟悉推荐相关算法;
了解javascript、html、css等前端技术。
1、负责数据中心项目的整体开发;
墨迹天气数据中心:项目负责人,负责项目整体架构设计、项目框架编写、项目集群的搭建工作,分配并协助项目组成员进行业务模块编写。该项目为分布式爬虫系统,用于抓取天气数据并对数据进行处理。涉及技术包括svm分类 以及 celery、scarpy、rabbitmq、mysql、cassandra、codis等。
2、负责新闻推荐系统的架构设计与算法实现;
在新闻推荐项目中担任项目负责人,主要负责服务架构设计、推荐算法实现、自然语言处理、用户新闻画像构建、文档向量表示、elasticseatch打分等工作。使用算法主要包括tfidf、word2vec、textrank、LDA、kmeans、fasttext、CF、LR、GBDT等;算法工具主要使用gensim、sklearn及sparkmllib等;
推荐服务采用java、spring编写,实现个性化推荐搜索、排序。
预处理项目使用python、tornado编写,主要对抓取的新闻内容进行预处理,包括文档向量生成、提取tags等功能。