Kaggle竞赛里面中“泰坦尼克号预测生还”是一个进行Pandas数据分析非常好的案例,我在此项目中通过导入训练数据进行初步数据分析以便用于后续的人工智能训练。
目前主要想了解的有:不同性别、舱位和年龄的分布情况,不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征。主要任务分为数据清洗,数据规整,数据可视化。
1.将无关数据项,比如ticket船票信息等删除,age年龄字段有缺值,通过填充处理。
2.将性别,港口名称等字段转化为数值,便于可视化显示。
3.数据可视化制表,展示数据,观察并总结特征。