有机器学习、数据挖掘工作经验,熟悉数据挖掘技术在生活、工业领域的应用。熟悉不同类型(音频、时间序列等)数据的清洗、特征提取、探索分析和挖掘。能够运用机器学习常用算法开展主 成分分析、分类聚类、关联等数据挖掘工作,解决业务需求。掌握linux系统基本操作。熟悉SQL语言、Hadoop、Spark等大数据分析工具。能够熟练运用MATLAB, Python等编程语言。掌握交叉验证,PSO,遗传算法等数据建模中常用的优化,验证技术。能够敏感地发掘海量数据背后隐含的关联信息和内在价值。英语雅思阅读8分,沟通能力良好,重视团队交流合作,能够独立开展研究项目。使用git进行项目管理,有良好的编程风格习惯。
【利用数据挖掘对空调噪声进行故障分类】
●空调的噪声成分中隐含着空调运行情况,结构合理性等信息,通过数据挖掘工作,能够提高产品的开发质量和效率,从源头减少故障和投诉的发生。
1. 针对空调实验采集的大量数据,利用机器学习的思路,基于matlab和python实现;
2. 利用小波分析和MFCC(梅爾頻率倒譜)技术对空调噪声录音进行能量特征向量提取,再使用决策树找出强相关性特征,然后使用PCA降维
3. 利用BP神经网络、SVM进行分类器建模,再用PSO,交叉验证进行算法调优,最后输出空调噪声分类器模型。
4. 分析结果通过GUI界面展示,关键数据库,提供相应的诊断方案和整改措施
●针对常见的多种类型空调噪音识别率达到90%以上,从设计源头减少空调故障噪音的产生,得到空调系统设计人员的好评