同样做NER,病历识别的“起跑线”设计要做好|NLP第一讲

2020-12-10

在医疗临床领域,能够准确地识别电子病历中的命名实体,对于构建完善的医疗知识库、精准的患者画像、智能医疗决策支持等都具有重要意义。命名实体识别(NER)最基础层面依赖于标准医学词表,而受限于中文病历语言的多样性表达,现有标准化词表如UMLS等难以完全覆盖文本中所出现的词汇,给病历精准识别带来一定阻碍。如何在病历识别“起跑线”做好顶层设计,将影响后续一系列的智能应用友好性。

 

01

方法论

NER是从电子病历中发现医疗问题并分类

医学领域中的命名实体识别,指的是将重要的医学实体,如疾病、症状等,从医学文本中抽取出来,其结果是关系提取等后续医学任务的基础。

 

英文电子病历命名实体识别工作起步较早,标注体系、标注方法和一致性评价方法对中文电子病历处理是非常重要的参考。其研究思路主要围绕电子病历中“发现的问题”,即:病历中发现了什么问题、做了什么检查、采用了什么治疗方法,关注的实体类型为“医疗问题”、“检查”、“治疗”。

 

为了准确地从电子病历中识别实体,国外进行了大量的研究,例如,美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,针对医疗问题、检查、治疗等实体进行公开评测,为临床医学语料建设做了大量贡献。

 

02

国内探索

中文病历识别难度大、粒度细

 

相较而言,中文电子病历识别研究起步较晚,具有其独特的语言特性,如:习惯用语大量出现,包含一些以数字和单位表示的检查结果和英文缩写词,句子语法结构不完整,模式化较强等,造成中文病历实体总体识别难度较大、识别的实体类型粒度更细。

 

杨锦锋等[1]将医疗问题细分为:疾病、症状、疾病分类。由北京大学计算语言学研究所、郑州大学自然语言处理实验室等联合发布的中文医学知识图谱CMeKG标注文档,进一步将疾病细分为:疾病名或综合症名、受伤或中毒、器官或细胞损伤,将治疗细化为:药物、手术。每年举行一次的全国知识图谱与语义计算大会(CCKS)则将实体类型限定为:疾病与诊断、解剖部位、药物、检验、检查、手术。

http://www.huimei.com/real/img/_@@_1607567649530562.jpg

表1.不同分类标签体系

如上图,上述几类实体分类标签(tag)体系有其特色,也存在一些问题:1)粒度不一致,这一点从医疗问题、疾病、治疗不断细分的过程可以说明。2)tag体系不完整,从应用来说,电子病历中存在很多属性类实体,比如“阴性/阳性/是否本人/既往/现在/时间”等,这些都是很重要的医学信息,但没有分类标签覆盖。3)CCKS 的分类标签体系对下游应用更友好,但其更偏重工业应用角度。

 

03

解决思路

融合SNOMED CT构建更完善的术语词表

鉴于当下电子病历实体类型存在粒度不一致、体系不完整等问题,本文提出融合了 SNOMED CT 构建自洽性更强的中文病历实体分类标签体系。

 

SNOMED CT 是 Systematized Nomenclature of Medicine -Clinical Term 的缩写,全称是医学系统化命名-临床术语。它由两大医学术语 SNOMED RT(Reference Terminology)与 CTV3(Clinical Terms Version 3)合并而来,结合 SNOMED RT 在基础科学、实验室医学、专科和病理学方面的内容,以及英国 READ Codes 术语有关全科医疗的工作成果,成为一部国际性、多语种、包含内容最为广泛的临床医学术语集。SNOMED CT 目前形成了19个顶层概念(下一节详细介绍标签的意义和使用场景),这些顶层概念下包含了约 321,900 条子概念(Concept)。

 

病历文本可以抽象为很多对(主体、属性集合),融合SNOMED CT医学术语和标签体系,病历中典型的主体可以分为:疾病与诊断、临床表现、药物、手术、检验、检查、评估表、观察对象,每一类主体会有典型的修饰属性。

以“患者最近3年一直都有阵发性的胸痛”主诉文本识别为例, “胸痛”是主体内容,“3年”是该主体的时间限定,“阵发性”是修饰限定。限定内容的维度可以抽象为主体的属性,比如“3年”限定的维度是时间属性,“阵发性”是定语属性。

http://www.huimei.com/real/img/_@@_16075677448717774.jpg

表2.融合SNOMED CT的新tag体系(注:标有颜色的概念对应一类实体类型,比如,疾病与诊断概念对应的实体类型也为疾病与诊断;实体名后面括号中数字是该实体类型名在SNOMED-CT中对应ID)

 

融合 SNOMED CT 标签体系和病历的“主体+属性集”特点,我们构建的新tag体系中,共设计了26个标签类型(见表2)。从医学术语角度来看,SNOMED CT标签体系的自洽性最好,而融合了 SNOMED CT 的新实体分类标签体系,则能够更好地支持下游任务,为面向临床诊疗和医疗管理的智能应用打下扎实基础。

“@工程狮”栏目专注于AI技术热点解读,我们将邀请资深的人工智能算法专家,从技术、政策多维度解读自然语言处理、深度学习模型等,把束之高阁的艰涩概念转化为“读得懂的AI技术”呈献给广大读者。

本期特邀专家:全福亮-惠每科技高级算法专家

下期主题:命名实体识别标签分类体系的意义和使用场景

编后语:

数据的结构化存储是数据分析处理和利用的关键,但从临床角度来看,描述性语言是电子病历应用的首选方式,电子病历系统中非结构化数据达85%以上[2],且存在术语、编码标准不一,为计算机自动处理制造了障碍。 

自然语言处理技术(NLP)在生物医学领域迅速发展,是医疗信息提取、知识发现的关键技术,是上层智能诊疗决策支持、医学科研等应用层的基础。NLP的关键性基础任务——命名实体识别(Named Entity Recognition,NER),是医疗信息抽取研究领域的重要扩展,本质上是一个医疗信息分类问题,该领域的基础夯实是影响NLP技术进展的重中之重。(编者:罗德芳)

参考文献:[1]杨锦锋, 于秋滨, 关毅,等. 电子病历命名实体识别和实体关系抽取研究综述[J]. 自动化学报, 2014, 40(8):1537-1562.

[2]李刚,浅谈大数据时代下的医院信息化建设,数字化用户,2017年第37期. 

[3]完整SNOMED CT概念体系参考:https://browser.ihtsdotools.org/?perspective=full&conceptId1=64572001&edition=MAIN/2020-07-31&release=&languages=en.

成为我们的合作伙伴

信息提交
姓      名
所在地区
单位名称
手  机  号

提交

感谢您的关注,我们会尽快与您取得联系!