了解C/C++/JAVA/Python语言,编程能力较好
了解Hadoop、mapreduce、tensorflow计算框架
相关课程:机器学习、数据挖掘、C++面向对象、Java程序设计、数据结构、算法设计与分析、统计学习方法、离散数学、高等数学、概率论
空壳公司识别
2019.05-至今 数据挖掘工程师
描述:项目背景:抓取了企查查有关公司的数据,线下验证是否为空壳公司,因为工作量巨大,所以数据量比较小,而且空壳公司的比例只有十分之一,特征量很多,但都不强。
解决办法:增加特征,利用百度搜索,搜索公司名称,看总共能查出多少词条。这条特征特别强,再加上,公司的注册地点,注册金额等特征,可以大幅度提高识别的准确度。
腾讯网络媒体事业群
2016.06-2016.09 基础研究
描述:主要工作是审核腾讯新闻客户端和天天快报客户端中用户的评论信息
● 基于卷积神经网络(CNN)对图像进行广告识别;深度学习框架使用的是tensorflow
● 网络结构中使用5个卷积层、3个池化层和2个全连接层;正确率是80%,召回率是78%
● 主要问题是:广告图片种类繁多,网络结构较难设定,并且泛化能力较差。
解决方法:阅读论文,查找在图像分类领域,现在流行的网络结构以及其适当参数;最终参考经典论文ImageNet Classification with Deep Convolutional Neural Networks中的网络结构和参数,并且做了适当的调整,准确率和召回率都有了很大的提高。针对算法的泛化能力,将广告图片适当进行分类,然后根据类别进行广告判别。
搜狗桌面事业部输入法研究部
2015.11-2016.05 数据挖掘工程师
描述:主要工作是围绕输入法和号码通数据进行数据挖掘
● 抓取、清洗号码通短信数据;抓取、清洗输入法用户的历史输入数据
● 对输入法用户进行性别预测;性别预测中,特征使用的是用户的一元二元输入词汇
● 特征选择的方法是词频、卡方检验和log(utf1)*(uf1)/(uf2)
● 分类方法使用的是朴素贝叶斯;准确率是93%,覆盖率是87%
● 主要问题是:一元特征准确率比较低,卡方检验更偏向于低频词汇;由于词汇是放到客户端所以特征数目不可以太多
解决方法:扩充特征,加入二元特征(中间也尝试加入APP信息等特征);卡方检验过后,根据词频进行词汇过滤。特征数目的最终确定首先是多次尝试然后手动筛选特征,去掉区分度比较小的特征。