*掌握机器学习常用的算法如逻辑回归,神经网络,决
策树,随机森林,knn,svm,kmeans等以及深度学习,强化学习原理
*掌握对数据进行feature selection,combination等feature engineering的一般方法
*掌握常见数据结构和算法,用java,python 独立完成核心算法架构和实现
*掌握Oracle,MySql,Mongodb等数据库使用
*掌握使用hadoop,Spark相关技术,如map-reduce,hive、hbase等以及redis,kafka等
*掌握python常用的框架,并开发部署服务,框架比如Flask,Django等,web服务如tomcat,nginx等
*掌握多进程多线程编程,并利用的实际优化效率
【项目一】
【项目名称】:用户信用模型评估系统
【项目描述】:通过App采集用户数据,包括性别,年龄,收入等,结合第三方数据获取用户的信息比如京东,淘宝,人行征信,社保卡等数据,建立机器学习模型,对用户信用进行评估,实现机器放款,提高放款效率,降低逾期率
【职责】:
>>特征工程:
行业专家提供一系列规则,编码抽取对模型可能有用的特征,合成样本,对样本进行Exploratory Data Analysis,对缺失数据,异常点数据进行处理,合成新的特征,用卡方检验,信息增益,相关系数等方法进行特征选择
>>模型选择:采用LR,svm,随机森林三种算法,用roc,auc,选出最优模型部署到生产环境中去
>>参数调优:
1.对模型参数进行交叉验证,绘制mse或mae图,选择最优参数
2.通过 Data Analysis,引入新的特征,检验其与标签的的相关系数
【项目二】
2.短文本挖掘:短信分类
>>模型建立:对用户短信进行分字,去掉停止词,把文本转换成tf-idf词向量形式,出现不均衡数据集的情况,用Bootstrapping算法对样本进行重抽样,用nbc,svm,决策树算法进行训练.
vvvvv>>模型调优:
1.画出词云,对词频最高的词,字进行观察
2.对分类不准确的样本分词后进行Data Analysis,人工引入一些规则
3.用网格搜索来进行高效的参数调优
4.CRM统计报表:用户数据统计
>>用Es+kabana建立CRM数据统计报表,为上层业务决策提供数据支持