LTR是一种监督学习(Supervised Learning)的排序方法,是构建信息检索(IR)系统、推荐系统、协同过滤系统的数据模型,目前已被广泛应用到需要文本处理的诸多领域。LTR包括逐点、成对和列表3种方法,与经验丰富的医生进行鉴别诊断的过程和思路十分契合。
研究人员将 TensorFlow 和 TensorFlow Ranking 作为系统的机器学习(ML)数据库,主要用于训练信息检索(IR)系统和推荐系统。同时,研究人员选择使用归一化折损累计增益(NDCG)来评估排序结果。评估目的则是考量基于LTR学习的CDSS,其机器学习性能和鉴别诊断性能相较于传统CDSS的变化。
由于研究对象主要聚焦在罕见病及难以确诊的疾病,大多数医疗机构该类患者数量较少,研究数量和经验均存在不足,因此本次研究从《新英格兰医学杂志》(NEJM)发表过的论文中选取符合要求的病例。这些病例均已经过验证且数据更加丰富,对此次研究成果的评估更有参考意义。
研究人员收集了约26000个病例数据,评估中为保证对比公平性,除损失函数(loss function)外,比较条件(训练数据、验证数据、超参数等)均相同。
1. 机器学习性能(ML)评估
NDCG 学习曲线
通过NDCG学习曲线结果,研究人员发现,MSE(均方误差)的训练中迭代次数更多;A-NDCG(近似NDCG)训练时间更长、内存空间要求更高;使用A-NDCG的预测模型往往会出现过拟合。
实验人员使用了贝叶斯优化进行超参数调优以及更改神经网络配置的层数、激活功能和优化器算法,以测试ML性能变化,但结果显示性能提升效果甚微。同时,作为损失函数,实验人员测试了Gumbel 近似NDCG损失(A-NDCG),但由于无法满足训练所需的内存空间需求,ML性能提升效果同样不明显。
2. 鉴别诊断性能评估
在鉴别诊断性能评估方面,研究人员选择了3种类型的病历:有典型症状的疾病、无典型症状且难确诊的疾病以及曾误诊的病例。而针对3种类型的区别,研究人员相对应地选择了3种疾病:急性间歇性卟啉病(AIP)、HIV-1急性感染、巴尔通体引起的亚急性细菌性心内膜炎。
研究人员首先将相对应的疾病从病历中筛选出来,并提取症状等信息转换为结构化数据,最后将数据输入CDSS,比较CDSS的输出结果和病历报告的结果。
有典型症状的疾病的鉴别诊断性能评估过程中,经过LTR学习的CDSS首先将需要排除的疾病“铅中毒”列在怀疑名单首位。在输入典型症状“低钠血症和肝功能异常”后,CDSS则将确诊疾病急性间歇性卟啉病排在了首位。
急性间歇性卟啉病病例疾病预测结果
对于无典型症状且难确诊的疾病,研究人员发现,在输入病历信息后,传统CDSS将确诊的疾病排在了可疑名单的20位往后,而经过训练的CDSS则将确诊疾病排在了首位,并将与确诊疾病相关的急性病毒性脑膜炎排在了第3位。
巴尔通体引起的亚急性细菌性心内膜炎病例疾病预测结果
依靠经验进行诊断是导致误诊的主要原因之一,而依靠CDSS可以有效降低误诊概率。研究人员选择的误诊病例实际患病应为巴尔通体引起的亚急性细菌性心内膜炎,但由于患者有丙型肝炎感染史,医生忽略了心内膜炎可能出现的心脏杂音、紫癜等典型特征,最终诊断为丙肝引起的混合性冷球蛋白血症。同样的症状输入训练过的CDSS后,其怀疑名单的前10位出现了亚急性细菌性心内膜炎(SBE)、急性细菌性心内膜炎和感染性心内膜炎3个与确诊疾病相关的疾病,但同样将混合性冷球蛋白血症列在了首位。
研究人员认为,尽管经过训练的CDSS将误诊疾病列在名单的首位,但在实际临床使用过程中,CDSS将3个与确诊疾病相关的疾病在前十位列出,对临床医生的诊断仍具有参考价值。
对于研究结果,研究人员表示,通过两类实验评估,可以证明经过LTR学习的CDSS在鉴别诊断性能等方面优于传统CDSS,能够更有效地辅助医生做出正确诊断。也能看出,CDSS在罕见病、疑难疾病的诊断等方面仍有较大的发展空间。基于LTR学习的CDSS具有多项优势,研究人员将会对其持续训练和开发,目标是形成终极临床决策支持系统(Ultimate Clinical Decision Support System)。
成为我们的
合作伙伴