识别与分类对了,才能谈AI预测能力

2021-2-5

编者按:上期 @攻城狮栏目推出了医学自然语言识别(NLP)的第一堂课——同样做NER,病历识别的“起跑线”设计要做好,惠每科技算法总监全福亮就“中文病历识别难度大、粒度细,如何构建更完善的术语词表更好地支持下游任务”进行了详细阐述。本期将对实体标签使用场景、病历识别模块,以及解决的业务场景问题进行解答。

医疗AI预测模型直接对业务场景效果负责,但模型构建依赖于NER,NER是AI下游任务的基础。

01AI场景医疗业务的需求与应用难点

医疗AI场景下有很多有意思、有挑战且有意义的问题,比如:

1、如何在给定患者主诉、现病史、既往史、家族史、过敏史等信息的情况下,预测患者可能的疾病原因?该问题的解决方案在基层医院应用意义尤为凸显,可以帮助医生快速准确定位可能的病因、疑似诊断。    

2、如何在给定患者信息的情况下,预测个体在未来一段时间内患某种疾病或事件(例如脑卒中、心衰)的风险概率?这对于患者和医生都很重要,持续、自动化预测患者存在的风险,可以在释放医疗资源的同时,提升患者治疗过程的质量。

3、如何在治疗过程中,基于患者的就诊信息实时预测治疗方案和所需费用?

以上业务场景中,医疗AI应用存在共性的难点:

1、解决方案模型具有可解释性,比如AI模型预测患者有卒中风险,必须提供可解释的理由;

2、医疗数据整体量级大但可用性有限,如何在有限的数据上构建高效的模型具有挑战性;

3、一些看似“不划算”的长尾病例(不常见,但种类多,导致总量大的疾病)怎么做?比如诊断预测场景中,很多长尾疾病在模型训练中都没有被覆盖,4、那么,在真实应用中要准确预测,是较有挑战的问题;

5、医疗数据使用涉及隐私保护,如何准确理解、合理使用病历中的医学信息?

6、AI的计算能力、存储能力有限度,保障多业务场景下、整体解决方案的性能有一定困难。 

02技术路径基于多信息源的推理预测

诊断预测是一个典型的医疗AI应用场景,主要是基于电子病历的主诉、现病史、既往史、家族史、过敏史等字段信息,预测可能的疾病原因。

假设:患者病历主诉字段为“患者体温38度,持续2天,无胸部、背部疼痛”,那在预测疾病时,需要在“体温38度、持续2天”这个信息上,得到发热以及病程信息,同时考虑“无胸部疼痛”和“无背部疼痛”的信息进行推理。

通过以上例子可以发现,诊断预测本质上是基于病历输入中的多个信息块,结合医学领域知识进行推理预测。其实这也是医生诊治疾病的逻辑,即:基于多信息源的推理预测。

推理预测的技术路径,通常由NER(命名实体识别)、NRE(实体间关系识别)、实体标准化以及多信息源推理等模块组成,见下图。

http://www.huimei.com/real/img/_@@_16125193900213943.png

其中NER负责从电子病历文书中识别出医学实体;NRE负责识别实体间的关系;实体标准化模块主要是处理电子病历中同一个医学概念可能有多个不同表达的问题,旨在用同一编码进行标准化描述。多信息源推理模块,则负责基于标准化的信息,结合医学知识,解决业务场景中的应用问题。

03识别与分类业务场景效果依赖于NER

虽然多信息源推理模型直接对业务场景效果负责,但该模型依赖的基本信息来自于NER、NRE以及医学概念标准化,且NER是这些模块的最基础部分。下表就NER医学实体识别及如何在后续模块中使用进行详细阐述。

http://www.huimei.com/real/img/_@@_16125194277738213.png

若下游业务需要依赖的信息在NER阶段没有被识别到,或其标签体系中未涉及到,那么AI在业务场景中应用效果将会受到制约。因此,一套基于SNOMED CT,从实体和属性角度设计的完整标签体系,对下游场景应用具有非常重要的意义。

本期特邀专家:全福亮-惠每科技算法总监

 

参考资料:[1] http://cips-chip.org.cn/2020/eval3

成为我们的

合作伙伴

医院演示预约
提交以下真实信息,我们将在一个工作日内联系您
*姓名
*部门
*医院名称
*手机号

即刻预约