1.熟悉常用机器学习算法及优化方法,能进行理论推导,熟悉自然语言处理相关理论及应用;
2.能用 Python 进行数据分析,实现分类、聚类、回归等应用,能实现分词、词性标注、关键词抽取、文本分类等 NLP 应用;
3.精通 SQL,会使用 sklearn、Tensorflow 机器学习工具库及 jieba、NLTK、gensim 等 NLP 工具库,精通 Numpy 科学计算库,Pandas 数据处理库;
4.熟悉 XPATH、re 等进行网页解析、熟悉 scrapy 框架、requests 库
5.较好的业务理解能力和数据敏感性;
6.熟练使用Linux系统,常用Linux命令以及shell脚本,可以维护和部署linux系统实时程序。
质控架构开发
1. 负责dao层编写
2. 负责质控模型训练和模型传递模块
3. 负责架构服务器部署,以及日常维护
属地量化架构开发
1. 负责整个架构的设计
2. 负责架构每个包的定义与主要的函数的定义
3. 负责分配任务以及后续测试、部署和维护
POI去重架构开发
1、负责整个架构的设计和主要流程图的设计
2、负责整个架构包结构定义以及核心代码的编写
3、负责架构的上线和后期维护
POI分类
1. 数据准备与标注
2. 数据清洗
3. 分词、构建词典以及关键字提取
4. Word2Vec词向量训练
5. CNN网络架构搭建
6. 模型训练和模型评估
设备老化自动化开发
1. 设备老化2次开发
2. 主要实现web调用自动老化功能
3. 配置项的设计以及相关表结构设计
4. 老化结果自动入库以及上传ftp
5. 服务器环境配置以及代码部署
课程项目:基于 SVM 和朴素贝叶斯进行新闻文本分类
1.去除停用词,分词,生成训练集和测试集;
2.使用词袋模型对文本抽取特征;
3.分别用 sklearn 中 SVM 和朴素贝叶斯模型对数据进行训练;
4.对测试集进行测试。
kaggle 项目:电影评论情感分析
1.使用 word2vec 训练词向量模型;
2.数据预处理和数据准备,提取词向量,统一评论长度;
3.用 Tensorflow 定义循环神经网络,设置超参数,定义 GRU 单元,
在 RNN 中使用 dropout,添加 softmax 层;
4.定义交叉熵、优化函数,使用梯度裁剪;
5.分批次将数据输入网络进行训练;
6.在测试集上进行测试。
课程项目:基于决策树进行收入分类和可视化
1.读入数据,区分特征列和标签列;
2.对特征列进行特征处理,采用哑变量变换;
3.用 sklearn 中决策树模型拟合数据;
可视化决策树。
课程项目:用 K-means 对不同成分啤酒进行聚类
1.读取数据,提取出特征数据;
2.用 sklearn 中 KMeans 训练数据;
3.得出聚类结果,查看各类统计值,对结果进行可视化。
课程项目:用 LDA 完成文本主题抽取
1.删除停用词和分词;
2.使用 gensim 构建模型。
课程项目:使用 TF-IDF 方法提取关键词
1.数据预处理:分词、词性筛选;
2.构建词频矩阵,将文本中的词语转换成词频矩阵;
3.统计每个词的 tf-idf 权值,获取 tf-idf 矩阵,打印词语权重;
4.获取文本 top10 关键词。