图1 收集相关数据以及预测结果输出的时间线
XGBoost算法的应用过程包括数据集选择、数据预处理、算法建模、性能评价四部分(图2),研究人员在模型预测过程中,基于SOFA分值的变化,一旦识别到患者的病情恶化或改善,就会分析影响结果的相关变量的特征重要性。
图2 算法建模及预测过程
02
结果评价
两种算法模型性能及特征排序比较
由于这是一项回顾性研究,研究人员在算法模型输出结果前,已对纳入研究的675 名患者的实际SOFA分值、各项变量评分情况等信息进行分析汇总。其中,有385名患者发生SOFA评分增加,290名患者SOFA评分降低,以此评价算法模型的性能及其可解释性。
研究结果显示,XGBoost模型准确预测了320名患者(83%)的SOFA评分增加,210名患者(72%)的评分降低,平均ROC曲线下面积为0.86;并如预期的那样,模型将Glasgow评分、休克状态、血管加压药的使用、胆红素浓度作为SOFA评分最相关的特征,而其他与患者预后相关的呼吸支持类型、APACHE II评分等特征也有助于准确预测(图3)。
图3 XGBoost模型性能及影响结果的最重要特征
研究人员同时使用逻辑回归这一传统机器学习算法建模,以进行两种算法模型的性能评价。结果显示,69%SOFA评分增加的患者、72%评分降低的患者被逻辑回归模型准确预测,对应的平均ROC曲线下面积为0.69。说明在预测任务上,XGBoost明显优于逻辑回归算法。
值得一提的是,逻辑回归模型判断的最重要特征与XGBoost模型的差异较大,其中相同的仅有SAPS II评分、胆红素浓度和入住ICU时去甲肾上腺素的使用这三个特征。
图4 逻辑回归模型性能及影响结果的最重要特征
研究人员认为,基于XGBoost算法设计CDSS,可为临床管理ICU患者病情提供决策支持。另外,该算法模型可解释性高,能够识别与COVID-19并发症发展直接相关的因素,用于非ICU科室可帮助临床预测患者发展成危重症的可能性。但由于该研究缺乏非ICU数据集的验证,影响了对算法模型普适性的评价,未来应在真实临床环境中进一步验证。
参考材料:
Montomoli Jonathan, et al. Machine learning using the extreme gradient boosting (XGBoost) algorithm predicts 5-day delta of SOFA score at ICU admission in COVID-19 patients[J]. Journal of Intensive Medicine,2021,1(2):
成为我们的
合作伙伴