熟练掌握Python,熟练使用Python进行系统编程,能够开发日常使用的Python脚本。善于使用Python进行数据分析,熟练使用Python+Pandas进行各种数据的分析,并能进行对应的可视化处理。熟悉数据挖掘,熟悉常用机器学习算法,能够根据实际情况涉更具业务设计数据挖掘方案,提供建议。
熟悉Java SE,能够进行一般的Java 开发工作。
《基于Python socket的分布式机器学习系统原型》
基于Python socket的udp原理采用典型C/S模型,编写参数服务器进行数据分发和计算结果合并。参数服务器采用多线程形式(目前为4线程形式)将任务文件切分为4份,同时对4台客户端下发任务,利用客户端计算局部权重,最后返回参数服务器进行加权合并,得到分布式训练模型。
《阿里天池精准保险大赛》
使用Python对阿里提供数据进行清洗与预处理,对清洗后的数据进行特征提取,使用sklearn提供的多种机器学习算法(包括逻辑回归、决策树、随机森林、GBDT等)对数据进行预测和模拟,最终采用随机森林算法获得的结果提交。