随着人口老龄化,老年的健康问题越来越值得关注。构建更准确的死亡风险预测模型,对老年人的死亡风险进行人群分级具有实际的公共卫生意义。集成学习是一种机器学习技术,它考虑多个异构或同质机器学习模型的预测,以提供更好的预测性能。目前流行的集成学习算法包括bagging、boosting和stacking。堆叠集成学习已被证明在预测临床结局方面优于其他集成技术。
浙江大学公共卫生学院健康科学大数据系李文渊研究员团队、联合中国医科大学公共卫生学院生物统计与流行病学教研室和北京大学精神卫生研究所等单位学者共同开展了一项重要研究,该项研究基于中国纵向健康寿命调查(CLHLS),采用叠加集合策略建立并验证老年人死亡风险预测模型。相关成果近期发表于国际知名期刊Maturitas。
研究基于CLHLS数据,在基线共纳入了12769名≥65岁老年人。在每次随访调查中,通过联系家庭成员或乡村医生的访谈确定参与者的生存状态和死亡日期。研究团队在训练集中建模了6种算法,包括逻辑回归、支持向量机(SVM)、随机forest、Extra Tree、极端梯度增强(XGBoost)和分类+增强(CatBoost), 并通过10倍交叉验证,基于验证集中的AUC得到了最优模型。为了开发堆叠集成模型,选择了三个分类器作为基础学习器:CatBoost、XGBoost和逻辑回归。此外,使用逻辑回归分类器作为元学习器,通过SHapley Additive解释方法评估变量的重要性。
该研究先开发并验证了6个基本学习器,CatBoost模型在三个基本学习器中表现最好,AUC达到0.8469 (95% CI: 0.8345-0.8593),然后选择表现最好的3个基学习器建立堆叠集成模型。叠加集成模型进一步提高了识别能力(AUC=0.8486, 95%CI: 0.8367-0.8612, P = 0.046)。传统逻辑回归具有相当的性能(AUC =0.8470, 95% CI: 0.8346-0.8595)。
利用SHAP解释技术,本研究发现预测效果最好的主要特征包括年龄、ADL自我护理评分、性别、客观身体表现能力评分、家务劳动、MMSE精神状态评分、BMI和睡眠时间。此外,年龄越大、日常生活自理能力得分越高、男性、客观身体活动能力得分越高、不承担家务、简易精神状态检查量表得分越低,其发病风险越高。
综上所述,本研究在大样本的中国老年人中开发并验证了逻辑回归、机器学习模型以及叠加集成模型用于预测全因死亡率。结果表明,与其他模型相比,虽然叠加集成方法的预测效果最好,但与传统逻辑回归相比,改进幅度不大。