1、掌握爬虫技能,熟系常见的反爬、反反爬的方法,能针对不同网站快速分析出爬取方案;
2、熟练掌握机器学习部分的常用算法,能够快速实现数据处理、数据分析、模型搭建、性能优化;
3、熟系自然语言处理方向基本算法,有算法实现、调参优化的能力;
4、掌握数据库设计原理,有mysql\mongoDB数据库的开发经验;
5、掌握多进程编程原理;熟练掌握python,有C++\java\JS等多种语言的基础;
1、电商领域客服聊天机器人:
a、爬虫获取海量电商领域下的问答对,构造FAQ库;
b、基于bert对用户query与FAQ库中问题进行文本匹配,引入情绪信息,并对模型进行了针对性调整和优化;
c、增加后处理策略,bert结果和ML结果进行融合,提升最后的性能。
2、英语口语自动打分系统
a、调用C++ kali模块对学生口语作答音频进行识别,对语言模型的词典进行了优化;
b、识别结果和标准答案进行bert文本匹配模型,得到匹配得分;原始音频单独走声学模型得到流利度得分;
c、增加后处理策略,根据试卷难度动态调整不同方面得分权重,给出最后得分。
这是一个简单的问答系统的demo,数据使用爬取到的问答数据以及蚂蚁金服的比赛数据,这里构造了三个简单的文本相似特征,将特征输入到一个svm模型中,得到相似度结果;测试阶段将用户输入query和FAQ库中的问题一一匹配,返回最相似的问题对应的答案。
一个简单的电商文本分类问题,数据使用爬取到的电商数据集,文本向量化使用了tfidf算法,模型使用的逻辑回归算法。