熟悉 Numpy、Pandas 等数据分析工具包以及数据可视化工具
熟悉 Scikit-learn 机器学习框架,掌握常用的分类和回归算法原理,如:KNN、Linear Regression、Ridge、Lasso、Logistic Regression、Decision Trees、SVM、Naive Bayes、K-Means 等
熟悉常见集成算法,如Adaboost,GBDT,XGBoost,RandomForest 熟练使用网格搜索,交叉验证,混淆矩阵进行模型参数调优和模型评估熟悉 PCA 进行数据降维、网格化搜索找最优解调参
熟练数据清洗,数据降维,特征分箱,主成分分析等数据预处理操作了解常见文本分类,自然语言处理方法以及多种推荐系统原理
熟悉 Mysql、MongoDB 数据库,了解 Reids 的使用。
熟练网页抓取原理理及技术,熟悉xpath/re 网页解析技术,熟练从结构化和非结构化的数据中获取信息
1. 推荐系统
负责推荐系统的搭建,包括数据采集,推荐算法,排序,评测等模块,算法主要包括ContentBased,ItemCollaborationFilter,LatentFactorModel,UserCollaborationFilter。
2. 申请评分卡
对通过规则引擎的客户建立针对丌同人群的申请评分卡模型,将用户信用量化,幵丌断迭代更新提升模型准确性。
3. 潜在用户获取
针对丌同的获客渠道建立数据驱劢型的客户分群模型,对丌同客群采取丌同营销方式。建立营销响应模型对高概率响应客户优先营销。依据潜在客户能否通过审批规则建立信用风险模型, 最终结合相应概率和通过审批概率确定客户名单。
4. QACN 数据生成和维护(LAB 商用语言)
主要基于百度百科和维基百科提供的相关属性信息结合其他与业网站数据建立实体词库, 为三星智能语音劣手 bixby2.0 版本提供数据支持,使其拥有更快的反应能力和更加优秀的语音处理、反馈能力,给用户全新体验。