精通机器学习的各种算法。回归分析,分类,聚类,决策树等。
熟练使用Python3进行数据分析,建模。熟练使用Numpy,Pandas,scikit-learn,Keras等工具。
熟悉使用Apache Spark构建Cluster,替代Pandas进行Dataframe的分布式计算。
精通卷积神经网络,话题模型,Word2Vec。
熟悉从关系型数据构建知识图谱进行行为分析。
精通图数据库Neo4j。精通Cypher。
精通Oracle。精通SQL(增删改查)。
精通Spring+Hibernate/JPA的Java开发框架。
有多年日本工作经验,日语无障碍交流。
1.知识数据库的构建与人机对话方式的知识获取系统
这是为了扩大公司的数据分析领域的业务自发提出的PoC项目。
我参与设计系统的整体框架以及开发。将公司网站上的博客通过自然语言处理导入图形数据库(Neo4j)中。使用话题模型(Topic Model)对博客中的话题进行聚类,构建知识图谱。对于用户输入的自然语言查询,通过分词,格解析等自动生成Neo4j的Cypher查询语句从Neo4j中得到潜在的查询结果。与全文检索不同的是这个项目意图不在与查找精确的结果,而在于查询存在于知识图谱中的未被发现的潜在知识。
开发工具包括: Python3, Neo4j, WordNet, Gensim, Cabocha, Word2Vec
2.电扇的运转异常检测
这是一个使用Deep Learning技术实现工厂环境中异常检测的项目。我负责调查最合适的机器学习手法,收集测试数据,开发演示程序。向客户汇报工作等。
本项目中考虑工厂环境中不易收集异常数据的现状首先采用了非监督学习算法的VAE生成模型进行了检验。另外也使用了isolated forest聚类来做异常检测。由于非监督学习算法的检测效果不是很理想(60%左右的准确率),我们之后也使用了对VGG16模型进行finetune的方法构建了监督学习的分类模型。最终,监督学习算法达到了98%的准确率。
开发工具包括: Python3, Keras, GCP, Matplotlib, Pandas, Flask, Kafka, OpenCV
3.客户行为分析的基盘系统构使用图形数据库(Neo4j)构建一个客户行为分析的基盘系统。由于客户的数据都保存在 AWS 上,基盘系统也在AWS 上构建。
与客户商讨系统构建事宜。 向客户汇报每周的工作进度。 在 AWS 的 EC2 上构建 Neo4j 的实例,将客户的数据导入 Neo4j 中,并将第三方数据与客户数据进行关联,进而可以分析客户的其他行为特征。
开发工具包括: Python3, Pandas, Apache Spark, Docker, AWS
4.下水道污水净化的预测分析
由于办公楼,住户的下水道排水,下水道蓄水池需要不定时地进行污水净化。 而净化污水所需的净化剂的投入量需要凭借业务人员的经验,并与天气等外部不可控因素有关。投入过少达不到净化效果,而投入过多会发生臭味。本项目通过使用机器学习技术进行建模进而自动预测净化剂的投入量。
我参与了定期与客户开展会议,商讨项目进展事宜。 对客户的业务数据,使用统计学的手法进行分析,并向客户汇报。 筛选适合机器学习的变量。使用线性回归,决定树等机器学习构建预测模型,使用聚类挖掘未知的特征量等。最后根据客户要求制作了一个APP调用预测模型简化客户的业务操作。
开发工具包括: Python3, Matplotlib, Pandas, Scikit-learn, Jupyter Notebook, Git, Docker
5.开发智能电表管理系统
这是一套配合智能电表使用的管理系统。这套系统简化了电力公司对分布在城市每个角落的电表的操作,提供一系列的远程操作,包括,收集电表的数据,开关电闸,指定时间段开关电闸,由于网络不通畅等原因对未收集的电表数据进行补测等。
我常驻在三菱电机(日本)的开发现场,与三菱电机的工程师一起设计并开发智能电表管理系统。期间为日本国内两家客户,台湾一家客户,提供了智能电表管理系统的开发。 并完成项目验收,维护。我的职责包括根据客户的需求进行基本设计,详细设计,编码,测试等。
开发工具包括: Java, Struts, Spring, Hibernate, JPA, dHtmlx, JQuery, Oracle, VoltDB, Javascript
使用Apache Mahout,Apache Spark制作了一个简单的分布式推荐算法引擎。 使用Docker Swarm构建了一个1 Master node,1 Worker node的Spark集群。 将Apache Mahout和Apache Spark打包在一个Do
从Poloniex虚拟货币交易所取得比特币的过往数据,使用LSTM构建深度学习神经网络来预测比特币价格。 总结成博客提交到公司网站(https://www.creationline.com/lab/dataanalytics/20922)。 开发工具包括: Python3,
使用日本气象厅的气温,降雨量预测东京电力局的用电量。 将日本气象厅的气温,降雨量作为特征值。 东京电力局的用电量为预测变量。 使用线性回归构建预测模型。 总结成博客提交到公司网站(https://www.creationline.com/lab/20628)。 开发工具
使用话题模型(Topic Model)对博客中的话题进行聚类,构建知识图谱。对于用户输入的自然语言查询,通过分词,格解析等自动生成Neo4j的Cypher查询语句从Neo4j中得到潜在的查询结果。与全文检索不同的是这个项目意图不在与查找精确的结果,而在于查询存在于知识图谱中的未被
这是一个使用Deep Learning技术实现工厂环境中异常检测的项目。目的是向一家工厂企业提供设备异常检测的解决方案。 我负责调查最合适的机器学习手法,收集测试数据,开发演示程序。向客户汇报工作等。 本项目中考虑工厂环境中不易收集异常数据的现状首先采用了非监督学习算法的VA
使用图形数据库(Neo4j)构建一个客户行为分析的基盘系统。由于客户的数据都保存在 AWS 上,基盘系统也在AWS上构建。 与客户商讨系统构建事宜。 向客户汇报每周的工作进度。 在 AWS 的 EC2 上构建 Neo4j 的实例,将客户的数据导入 Neo4j 中,并将第三方