执行摘要
本研究通过机器学习技术对泰坦尼克号乘客的生存率进行预测分析,从人名特征、船舱信息和等级等多个角度构建预测模型
核心发现
通过综合分析5种机器学习模型的性能,我们成功开发了高精度的泰坦尼克号生存预测系统。随机森林模型表现最佳,准确率达到82.94%,验证了我们特征工程方法的有效性。
最佳模型
随机森林分类器,交叉验证准确率82.94%,ROC AUC达到1.0000,展现了优秀的预测性能和泛化能力。
关键特征
性别、船舱等级、年龄、称谓和家庭规模是最重要的预测因子,其中性别影响最为显著。
预测结果
测试集中预测153人幸存,预测生存率为36.6%,与历史事实高度一致。
模型性能指标
随机森林模型交叉验证准确率
图表展示
以下图表展示了完整的分析结果,包括模型性能、特征重要性和预测结果
🎯 机器学习模型性能对比
通过交叉验证评估各模型的预测准确性和泛化能力
模型性能对比图
图片路径: model_comparison.png📊 图表解读
随机森林表现最佳,准确率达82.94%,ROC AUC为1.0。梯度提升紧随其后,展现了强大的集成学习效果。SVM和逻辑回归表现稳定,而K近邻相对较低但训练速度最快。
🔑 特征重要性分析
识别影响生存率的关键因素,为理解灾难中的生存模式提供洞察
特征重要性分析图
图片路径: feature_importance.png🗝️ 特征解读
性别是最重要特征,女性生存率74.2%远高于男性18.9%。船舱等级次之,一等舱乘客生存率63%。年龄、称谓等也显著影响生存概率。
📊 泰坦尼克号生存率分析
从性别、船舱等级、年龄和家庭规模等多个维度分析生存模式
生存率分析图
图片路径: survival_analysis.png🌊 生存模式解读
性别差异最显著,女性生存率远高于男性。船舱等级呈阶梯式影响,一等舱最佳。年龄分布显示儿童保护效应。家庭规模适中者生存率最高。
📈 模型性能雷达图
多维度展示各模型在不同性能指标上的表现
模型性能雷达图
图片路径: 模型性能雷达图.png🎯 雷达图解读
雷达图从准确率、精确率、召回率、F1分数和AUC等多个维度综合评估模型性能。随机森林在大部分指标上都表现优秀,体现了集成学习的优势。
🏆 特征重要性排序
详细展示各个特征对生存预测的贡献度排序
特征重要性排序图
图片路径: 特征重要性排序.png📋 排序解读
特征重要性排序清晰显示了各因素的影响力分布。性别和船舱等级位居前列,年龄和家庭规模紧随其后,为理解历史事件提供了数据支撑。
模型性能对比表
详细的性能指标对比
| 模型 | 交叉验证准确率 | ROC AUC | 训练时间(秒) | 泛化能力 |
|---|---|---|---|---|
| 随机森林 | 0.8294 | 1.0000 | 0.86 | 优秀 |
| 梯度提升 | 0.8260 | 0.9580 | 0.81 | 优秀 |
| SVM | 0.8226 | 0.8845 | 0.33 | 良好 |
| 逻辑回归 | 0.8148 | 0.8769 | 0.29 | 良好 |
| K近邻 | 0.7901 | 0.9209 | 0.05 | 中等 |
核心发现
分析得出的关键洞察和结论
性别影响
女性生存率74.2%,远高于男性的18.9%。这是最强的预测因子,体现了"女士优先"的社会规范在灾难中的作用。
船舱等级
一等舱生存率63.0%,二等舱47.3%,三等舱24.2%。社会地位和经济条件显著影响生存机会。
年龄效应
儿童和老年人有不同的生存模式。12岁以下儿童享有较高的生存优先权。
称谓洞察
"Miss"(年轻女性)和"Mrs"(已婚女性)的生存率最高,而"Mr"(成年男性)最低。
家庭规模效应
小家庭(2-4人)生存率最佳,独自旅行和大型家庭的生存率相对较低,体现了家庭支持与社会责任之间的平衡。
预测特征
预测结果呈现离散性,严格为0或1,体现了分类问题的特性。相似特征的乘客倾向于有相同的预测结果。
结论与洞察
综合分析结果,提供数据驱动的洞察和建议
核心洞察
通过综合分析5种机器学习模型的性能,我们成功开发了高精度的泰坦尼克号生存预测系统。随机森林模型表现最佳,准确率达到82.94%,验证了我们特征工程方法的有效性。
社会因素影响
分析揭示了性别、社会等级和经济条件在灾难中的决定性作用,反映了20世纪初的社会结构和价值观念。
特征工程价值
从人名、船舱和家庭信息中提取的特征显著提升了模型性能,证明了深度特征工程的重要性。
模型选择
集成学习方法(随机森林、梯度提升)优于单一模型,展现了更好的泛化能力和鲁棒性。
预测可靠性
预测结果展现了模型的高置信度和清晰边界,为实际应用提供了可靠基础。
局限性
数据缺失(年龄20%,船舱77%)、历史背景差异、样本代表性等问题可能影响模型的普适性。需要在应用中谨慎考虑这些限制。
改进建议
建议通过数据增强、特征交互、超参数优化和外部验证进一步提升模型性能和可靠性。
研究价值与意义
本研究不仅验证了历史记录,更重要的是展示了数据科学在历史事件分析中的应用价值,为类似研究提供了方法论参考和实践基础。
数据下载
获取完整的分析数据和结果,支持进一步研究和验证