数据探索:使用Pandas库读取了名为air.csv的原始数据,并进行了基本的探索,包括计算缺失值个数、最大值和最小值,并输出到air_data.csv文件。
客户基本信息分布分析:提取了会员入会年份、性别、会员等级和年龄等信息,并使用Matplotlib库绘制了直方图、饼图和箱型图来展示这些信息的分布情况。
乘机信息分布情况分析:分析了客户的最后乘机时间至结束时长、飞行次数和总飞行公里数,并同样使用了箱型图来展示这些信息的分布。
积分信息分布情况分析:提取了会员的积分兑换次数和总累计积分,并绘制了直方图和箱型图来展示这些积分信息的分布。
相关系数矩阵与热力图:计算了关键属性之间的相关性矩阵,并使用Seaborn库绘制了热力图来展示这些属性之间的相关性。
数据清洗:进行了数据清洗工作,包括去除空值和异常值,并保存了清洗后的数据到data_cleaned.csv。
属性选择:从清洗后的数据中选取了特定的属性,如FFP_DATE、LOAD_TIME、LAST_TO_END等,以供进一步分析。
属性构造与数据标准化:构造了新的属性L,并将数据进行了标准化处理,以便进行聚类分析。
K-Means聚类:使用了K-Means算法对标准化后的数据进行了聚类分析,并输出了聚类中心和样本的类别标签。
客户分群雷达图:最后,绘制了客户分群的雷达图,以可视化不同客户群的特征。