北京邮电大学计算机学院硕士研究生,熟悉使用Python,研究方向为数据挖掘、机器学习和自然语言处理。熟悉各种分类与回归算法,熟悉SVM、XGboost等常用分类算法的原理及其使用。对自然语言处理文本分类问题有很多实际经验,在校期间完成一百万级别文本分类,对搜狐新闻爬取下来的新闻进行分类,10个类别分类准确率接近90%,参加天池阿里云恶意软件检测比赛现在排行榜排名第4,正在进行新冠疫情相似句对判定大赛。
100万新闻文本分类
对爬取的100多万篇搜狐新闻进行数据挖掘,分析文本分布和各种统计,之后进行数据预处理,包括分词、去停用词等预处理,之后训练词向量并用朴素贝叶斯算法进行分类,准确率达到80%以上,使用XGboost准确率达到85%。
天池阿里云安全恶意程序检测比赛第4名
使用ngram词向量拼接word2vec向量加xgboost分类单模型效果达到前20,与textCNN模型结果融合排名第4。
天池阿里云安全恶意程序检测比赛,属于NLP中文本分类问题,不同于常规文本分类都是api序列,需要自己考虑训练词向量等信息。最终两个模型融合排名第4。
对爬取的搜狐新闻进行预处理、训练词向量、分类等操作,最终100多万篇文本分类正确率最高达到0.9467。