熟悉python开发,主要用于数据分析、深度学习方向,熟悉pytorch等深度学习框架。
有数据爬取经验,熟悉scrapy框架,以及常见的反爬手段,爬取过豆瓣、Twitter、Quora、Instagram等社交网站。
同时,使用Django开发web服务器端。
Twitter,Quora用户对齐数据抓取
爬取Twitter和Quora上在现实世界是同一个人的账号信息,包括基本个人信息以及社交好友关系,并进行数据清洗和分析,通过一定的规则标定出属于同一个人的账号信息,划分训练集测试集,设计并实现高效的算法进行用户对齐。
电影推荐
训练一个模型,能对用户对电影的评分进行预测,以此来个用户推荐电影。使用公开数据集,设计并实现几个高效的算法,尝试使用矩阵分解、Node2Vec、GCN等方法,对电影以及用户进行embedding,在隐空间基于距离进行推荐。