1、精通基于Python语言的程序编写,能够使用python进行数据分析、数学建模、web后端开发、自然语言处理等工作。
2、对机器学习、深度学习领域知识有深刻的理解,能够针对业务场景迅速构建模型,如分类、回归、聚类、神经网络等。
3、对NLP等领域的知识有深刻的认识,熟悉常用操作,包括分词、词性标注、句法树的构建、语义角色标注,能将NLP与数据挖掘两个领域的知识结合,进行文本挖掘。
4、掌握一些常用的方法库,如numpy、pandas、sklearn、tensorflow、jieba、pyhanlp等等,能快速的进行数据清洗,模型建立、神经网络搭建、文本数据提取、文本分类等。
5、拥有良好的数学建模能力,擅长时间序列以及预测类模型的构建。
6、熟悉常用的关系型数据库,如mysql、oracle,能够熟练使用sql语句进行数据的增删改查。
7、对hadoop生态圈有一定的认识,能熟练使用hive数据仓库。
8、对docker容器引擎有一定的认识,能够熟练使用docker进行镜像的获取、启动、运行。
9、熟悉linux常用命令,能熟练使用linux系统。
项目1:基于聚类算法的咪咕音乐白金会员异常用户检测
在咪咕音乐的日常运营中,会每个月给合作方进行佣金结算。基于合作方的佣金结算规则,合作方发展有效用户是最为重要的一个因素。但是,在日常运营中存在合作方通过刷量等行为制造虚假的用户,以达到骗取佣金的目的。对此,需要根据用户的日常行为,筛选出其中的异常用户。之前的研究结果表明,由于数据的标记存在质量问题,导致使用有监督学习的方法在处理该问题上的表现极差。因此,使用无监督学习方法进行异常用户与正常用户的区分。
项目2:根据北京联通客服通话录音判断用户是否咨询携号转网
分析:判断用户是否咨询携号转网即对用户进行分类(二分类),可使用有监督学习的方法来解决该问题。
难点:数据标注。要使用有监督学习的方法进行分类,首先要给数据打标签。若使用深度学习的方法,则需要大量的训练数据,需要给大量的数据贴标签,耗时长久。故首先考虑使用传统机器学习的方法(逻辑回归、决策树及延伸、支持向量机等方法)进行分类。
分析:判断用户是否咨询携号转网即对用户进行分类(二分类),可使用有监督学习的方法来解决该问题。 难点:数据标注。要使用有监督学习的方法进行分类,首先要给数据打标签。若使用深度学习的方法,则需要大量的训练数据,需要给大量的数据贴标签,耗时长久。故首先考虑使用传统机器学习的方法(逻
利用熵值法计算各关键字对各分类的权重值的矩阵构造流程: 1、从6月份的数据中提取目标信息,主要包括:处理意见、在线办结意见、匹配大督查以及类别、匹配大督查二级类别、匹配大督查三级类别,共五个字段的内容。 2、对提取出的内容进行整理,剔除匹配大督查三级类别为空的记录。 3、对