有海外工作经验和3 年项目开发及算法经验,在2020年百度竞赛获取前5%的成绩。擅长分析项目需求并结合行业相关的指标、计算方式等确定适合的业务流和模型算法。
语言技能:熟练使用Python编程(PyCharm、Jupyter Nootbook)、熟悉Pytorch框架和TensorFlow2.x相关的建模。熟练使用SKlearn及pandas、numpy。了解TensorFlow1.x、了解SQL语言(MySQL和Neo4j)
机器学习:熟悉主流机器学习模型并了解相关算法理论,包括:线性回归、逻辑回归、朴素贝叶斯、 KNN、树模型和相关集成算法(boosting和bagging)、SVM、密度聚类、EM、PCA, 并能够使用Scikit-learn 搭建上述模型完成对应数据的分析工作
自然语言处理: 熟悉相关任务及主流算法模型,如:HMM、CRF、Seq2Seq、LSTM、Attention、Transformer、Bert、命名实体识别、知识图谱、情感分析等
电商平台用户评论分析
背景及目标:找靓机平台拥有种类繁多的手机商品和大量的用户群体,本项目基于用户对商品的评论信息,采用文本聚类、关键词提取等方法,得到真实的用户评价,以此获取用户对于商品的喜好情况、重点关注内容等信息,为平台后续的经营策略提供支持
核心技术:word2vec、文本聚类、情感分析、关键词提取
主要流程:
文本聚类:项目数据为平台各个商品下的评论数据,并没有完成准确的类别标注。经过数据筛选、分词后,使用word2vec完成文本向量化。最终对文本向量使用DBSCAN、Kmeans等多种方式获取恰当的标签
情感分析:使用聚类后的文本数据作为训练数据构建LSTM模型,训练后的最佳模型下有91%的准确度。使用该模型对于所有数据完成标注。
关键词提取:对于分类后的文本,使用TF_IDF和TextRank算法(TextRank4ZH)提取文本中对应的关键词,并生成对应商品的正负面评价的关键信息。
最终成果:训练模型分类准确率在91%,并最终从用户评价中筛选出具有表现力的评价关键字生成对应商品的优点和缺点,帮助平台重点经营市场好评的产品,并对自己的维修团队的业务问题进行反馈,提高工作能力