熟悉数据结构与算法,熟悉python编程,熟悉linux编程和shell编程,熟练掌握数据库建模使用,熟悉mysql、hivesql和pyspark语言,熟练掌握常见的诸如LR、SVM、Xgboost等机器学习算法原理和应用,了解深度学习RNN和LSTM,在数据挖掘领域和数据分析领域比较擅长,现在主要做NLP的知识图谱方向。
去哪儿网
1. 商旅出行预测:目标是预测用户此航线出行是否为商旅出差的二分类问题,通过数据处理、特征工程和建立逻辑回归模型、XGBoost模型,模型评估中F1_score=0.95
2. 用户投诉预测:增加时间窗口周期和进一步进行特征工程,优化XGBoost模型,使得投诉1的召回率提高10%
3. 机票低价预测:预测未来两个月内某一天出行在搜索日期一周内的最低价,近似时间序列问题,通过数据处理、特征工程和建立XGBoost、LSTM模型,模型评估中预测北京-上海结果MAE=0.06,RMSE=42
贝壳找房
1.图谱本体可视化:使用ant design开发图谱可视化界面,利用mysql数据库和python做后端接口的开发,实现图谱本体和本体属性表的增删查改功能
2.挖掘房源急售标签:利用数据库中已有的房源跟进表信息,通过规则匹配、情感分析和分类模型等手段,挖掘房源是否急售的标签,结果占比在20%左右,完成图谱本体三元组的开发工作。