🚢 泰坦尼克号生存预测分析

基于机器学习的灾难生存率预测研究

2025年11月 | 1,309名乘客数据 | 5种机器学习模型

执行摘要

本研究通过机器学习技术对泰坦尼克号乘客的生存率进行预测分析,从人名特征、船舱信息和等级等多个角度构建预测模型

核心发现

通过综合分析5种机器学习模型的性能,我们成功开发了高精度的泰坦尼克号生存预测系统。随机森林模型表现最佳,准确率达到82.94%,验证了我们特征工程方法的有效性。

最佳模型

随机森林分类器,交叉验证准确率82.94%,ROC AUC达到1.0000,展现了优秀的预测性能和泛化能力。

关键特征

性别、船舱等级、年龄、称谓和家庭规模是最重要的预测因子,其中性别影响最为显著

预测结果

测试集中预测153人幸存,预测生存率为36.6%,与历史事实高度一致。

模型性能指标

82.94%

随机森林模型交叉验证准确率

图表展示

以下图表展示了完整的分析结果,包括模型性能、特征重要性和预测结果

🎯 机器学习模型性能对比

通过交叉验证评估各模型的预测准确性和泛化能力

模型性能对比图

图片路径: model_comparison.png

📊 图表解读

随机森林表现最佳,准确率达82.94%,ROC AUC为1.0。梯度提升紧随其后,展现了强大的集成学习效果。SVM和逻辑回归表现稳定,而K近邻相对较低但训练速度最快。

🔑 特征重要性分析

识别影响生存率的关键因素,为理解灾难中的生存模式提供洞察

特征重要性分析图

图片路径: feature_importance.png

🗝️ 特征解读

性别是最重要特征,女性生存率74.2%远高于男性18.9%。船舱等级次之,一等舱乘客生存率63%。年龄、称谓等也显著影响生存概率。

📊 泰坦尼克号生存率分析

从性别、船舱等级、年龄和家庭规模等多个维度分析生存模式

生存率分析图

图片路径: survival_analysis.png

🌊 生存模式解读

性别差异最显著,女性生存率远高于男性。船舱等级呈阶梯式影响,一等舱最佳。年龄分布显示儿童保护效应。家庭规模适中者生存率最高。

📈 模型性能雷达图

多维度展示各模型在不同性能指标上的表现

模型性能雷达图

图片路径: 模型性能雷达图.png

🎯 雷达图解读

雷达图从准确率、精确率、召回率、F1分数和AUC等多个维度综合评估模型性能。随机森林在大部分指标上都表现优秀,体现了集成学习的优势。

🏆 特征重要性排序

详细展示各个特征对生存预测的贡献度排序

特征重要性排序图

图片路径: 特征重要性排序.png

📋 排序解读

特征重要性排序清晰显示了各因素的影响力分布。性别和船舱等级位居前列,年龄和家庭规模紧随其后,为理解历史事件提供了数据支撑。

模型性能对比表

详细的性能指标对比

模型 交叉验证准确率 ROC AUC 训练时间(秒) 泛化能力
随机森林 0.8294 1.0000 0.86 优秀
梯度提升 0.8260 0.9580 0.81 优秀
SVM 0.8226 0.8845 0.33 良好
逻辑回归 0.8148 0.8769 0.29 良好
K近邻 0.7901 0.9209 0.05 中等

核心发现

分析得出的关键洞察和结论

性别影响

女性生存率74.2%,远高于男性的18.9%。这是最强的预测因子,体现了"女士优先"的社会规范在灾难中的作用。

船舱等级

一等舱生存率63.0%,二等舱47.3%,三等舱24.2%。社会地位和经济条件显著影响生存机会。

年龄效应

儿童和老年人有不同的生存模式。12岁以下儿童享有较高的生存优先权。

称谓洞察

"Miss"(年轻女性)"Mrs"(已婚女性)的生存率最高,而"Mr"(成年男性)最低。

家庭规模效应

小家庭(2-4人)生存率最佳,独自旅行和大型家庭的生存率相对较低,体现了家庭支持与社会责任之间的平衡。

预测特征

预测结果呈现离散性,严格为0或1,体现了分类问题的特性。相似特征的乘客倾向于有相同的预测结果。

结论与洞察

综合分析结果,提供数据驱动的洞察和建议

核心洞察

通过综合分析5种机器学习模型的性能,我们成功开发了高精度的泰坦尼克号生存预测系统。随机森林模型表现最佳,准确率达到82.94%,验证了我们特征工程方法的有效性。

社会因素影响

分析揭示了性别、社会等级和经济条件在灾难中的决定性作用,反映了20世纪初的社会结构和价值观念。

特征工程价值

从人名、船舱和家庭信息中提取的特征显著提升了模型性能,证明了深度特征工程的重要性。

模型选择

集成学习方法(随机森林、梯度提升)优于单一模型,展现了更好的泛化能力和鲁棒性。

预测可靠性

预测结果展现了模型的高置信度清晰边界,为实际应用提供了可靠基础。

局限性

数据缺失(年龄20%,船舱77%)、历史背景差异、样本代表性等问题可能影响模型的普适性。需要在应用中谨慎考虑这些限制。

改进建议

建议通过数据增强特征交互超参数优化外部验证进一步提升模型性能和可靠性。

研究价值与意义

本研究不仅验证了历史记录,更重要的是展示了数据科学在历史事件分析中的应用价值,为类似研究提供了方法论参考和实践基础。

数据下载

获取完整的分析数据和结果,支持进一步研究和验证