1. 熟练使用 Python 、C++ 编程语言、SQL 语言、PowerBI、NumPy、Pandas、MATLAB, 熟悉 Linux 开发环境,
能够编写 Shell 脚本;
2. 掌握使用 MySQL 数据库, 能够熟练使用 SQL 完成相应需求操作;
3. 掌握 Hive 的基本原理, 能够使用 Hive 构建相关行业的数仓, 以及基于数仓实现指标离线分析, 熟练使用 Sqoop
数据采集工具对业务场景中的数据进行导入导出, 能够结合相关情况对 Hive 进行一定程度上的优化;
4. 掌握 Hadoop 的 HDFS、MapReduce 以及 Yarn 的工作原理, 能够熟练使用 HDFS 进行文件存储, 能熟练使用
MapReduce 进行数据处理,熟悉使用 Oozie、DolphinScheduler 等调度器进行任务调度;
5. 精通 Latex、Xmind、AI、PS、Office。
项目描述:
项目基于人工智能和深度学习框架,对 bp 神经网络的输入层、隐含层、输出层三层基本结构及功能进行描述,
BP 模型是早期 M-P 模型的优化版本,BP 模型具有增强网络的分类和识别、解决非线性问题的能力,作为一种按照
误差逆向传播算法训练的多层前馈感知器,其基本思想是梯度下降法,从本质上讲,BP 算法就是以网络误差平方为
目标函数、采用梯度下降法来计算目标函数的最小值。算法测试用例包括训练集、测试集、验证集,使用 MATLAB
实现,根据测试集和验证集图像的变化趋势和误差分析结果,观测 bp 神经网络模型对全球新型冠状病毒确诊和死
亡人数的拟合效果和预测效果。
项目亮点:
在传统 BP 神经网络模型的基础上,使用遗传算法进行优化,给出 GA-BP 模型,该优化模型旨在优化神经网
络中各个神经元之间的连接强度,对各个结点的阈值和结点之间的权值的计算方法进行优化。传统的 BP 模型采用
梯度下降法来调整阈值和权值,而遗传算法具有全局搜索特性,使用该算法替代梯度下降法能够使 BP 模型避免陷
入局部最优解或错过全局最优解,从而达到优化网络结构的目的。
项目内容:
1. 在 OpenDataLab 开源数据平台上采集来自全球不同国家和地区的新型冠状病毒确诊和死亡数据,经整理筛选出
训练模型所需的样本集,该样本集涵盖近三年相关数据,共 73246 个样本;
2. 对样本集进行分类,将前 63246 个样本划分为训练集,后 10000 个样本划分为测试集,验证集由 MATLAB 深度
学习算法随机选取;
3. 对样本集进行异常值处理,采用插补法或箱形图剔除异常值,并对所有数据进行中心标准化;
4. 确定隐藏层层数和节点数,选择 tansig 函数作为激活函数;
5. 设置 BP 模型的最大迭代次数、学习速率、目标最小均方误差等基本参数;
6. 对遗传算法样本种群进行初始化和编码,选定适应度函数,设定选择、交叉、变异操作;
7. 设置 GA-BP 模型的总体进化迭代次数、种群数量、交叉概率、变异概率等基本参数;
6. 分析 BP 模型和 GA-BP 模型训练曲线的变化趋势和拟合优度,并通过 MAE、MSE、RMSE 进行量化分析。
项目成果:优化后的 BP 神经网络训练时的迭代次数少,收敛速度提升 50%,预测误差降低了 10 倍。
项目描述: 项目基于中国南方电网的大数据分析平台, 因公司经营发展需要构建大数据技术数据中心, 通过离线的框架整合 方式进行数据分析, 构建基于电缆、开关柜、配电变压器等电网设备质量大数据的质量评价模型,实现差异化抽检策 略优化和提升入网设备质量的目标。使用 Hive
项目描述: 项目基于人工智能和深度学习框架,对 bp 神经网络的输入层、隐含层、输出层三层基本结构及功能进行描述, BP 模型是早期 M-P 模型的优化版本,BP 模型具有增强网络的分类和识别、解决非线性问题的能力,作为一种按照 误差逆向传播算法训练的多层前馈感知器,其