个人技术栈: 超级喜爱在 Linux 平台下的代码开发,熟悉 Git 版本管理,使用 Python 编程,精通 SQL; 接触过以下几种数据库:Elasticsearch,MySQL,MongoDB,Spark SQL. 熟悉数据处理与分析:Numpy,Pandas,Scikit-Learn 了解大数据处理框架:Hadoop,Spark,Hive 了解并能熟练使用机器学习框架:Tensorflow,Pytorch,Scikit-Learn,Keras 了解基本机器学习方法并复现,Knn,Decision Tree,Logic Regression,ANN,CNN(RCNN,LSTM),集成学习 (Bagging,Random Forest,Boost) 了解数据挖掘建模分析流程,数据处理,数据探索,数据分析,数据建模。 两年多 Python 开发经验. 有过 Opencv 对图像进行处理
香港地区地理数据爬取
项目描述:爬取香港分区的信息,信息包括,人口统计量,中学,大学,小学,国际学校相关的信息,房地产信息。
1
香港机场运营数据分析
项目描述: 通过对香港机场运营历史数据进行挖掘分析,对机场关注关键指标的预测,为机场运营提供辅 助决策,提高风险控制能力。
项目职责:
1. 数据格式转化与导入数据库,通过对原始数据进行清洗,将数据处理成长格式,导入 MySQL 中。
2. 对导入 MySQL 的数据,运用 pandas 进行再清洗,进行缺失值填补,删除等,数据类型转 换。
3. 是用 Pandas,Matplotlib,Seaborn 等工具,对运营数据进行基本分析探索。
4. 结合业务知识,对数据属性进行筛选,选择合适的属性进行建模分析。
5. 对感兴趣的特征数据进行卡方检验,以及主成分分析,减少非关系数据对建模的影响。
6. 使用多进程,快速训练数据,找到适合算法。
7. 通过使用 Sklearn 中的 SGD 算法,预测航班最终机位改变可能性,准确率达到 82% 8. 使用 Keras 构建深度学习神经网络(全连接,一维卷积神经网络)训练数据并预测,准确率 达到 84% 9. 机场可以根据预测模型的预测结果,进行辅助决策,达到风控的目的。
地铁车轨轮径轮缘磨损预测分析
项目描述: 依据现有数据,对轮径磨损数据进行分析,使用机器学习对轮径磨损速度进行分类,分出三个 不同磨损区间,提出建议,选择最佳维修时间。
项目职责:
1. 对原始数据进行预处理,数据格式转换,空值处理,缺失值处理。
2. 可视化,使用 Matplotlib 对数据进行可视化分析。
3. 分类,使用 Scikit-Learn 的 Knn 算法对轮径磨损速度进行无监督分类。
角色 | 职位 |
负责人 | 数据工程师 |
队员 | 安卓工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |