当前位置： AI资讯 > 内文

同样做NER，病历识别的“起跑线”设计要做好｜NLP第一讲

2020-12-10 关键词：医疗AI

在医疗临床领域，能够准确地识别电子病历中的命名实体，对于构建完善的医疗知识库、精准的患者画像、智能医疗决策支持等都具有重要意义。命名实体识别（NER）最基础层面依赖于标准医学词表，而受限于中文病历语言的多样性表达，现有标准化词表如UMLS等难以完全覆盖文本中所出现的词汇，给病历精准识别带来一定阻碍。如何在病历识别“起跑线”做好顶层设计，将影响后续一系列的智能应用友好性。

方法论

NER是从电子病历中发现医疗问题并分类

医学领域中的命名实体识别，指的是将重要的医学实体，如疾病、症状等，从医学文本中抽取出来，其结果是关系提取等后续医学任务的基础。

英文电子病历命名实体识别工作起步较早，标注体系、标注方法和一致性评价方法对中文电子病历处理是非常重要的参考。其研究思路主要围绕电子病历中“发现的问题”，即：病历中发现了什么问题、做了什么检查、采用了什么治疗方法，关注的实体类型为“医疗问题”、“检查”、“治疗”。

为了准确地从电子病历中识别实体，国外进行了大量的研究，例如，美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务，针对医疗问题、检查、治疗等实体进行公开评测，为临床医学语料建设做了大量贡献。

国内探索

中文病历识别难度大、粒度细

相较而言，中文电子病历识别研究起步较晚，具有其独特的语言特性，如：习惯用语大量出现，包含一些以数字和单位表示的检查结果和英文缩写词，句子语法结构不完整，模式化较强等，造成中文病历实体总体识别难度较大、识别的实体类型粒度更细。

杨锦锋等[1]将医疗问题细分为：疾病、症状、疾病分类。由北京大学计算语言学研究所、郑州大学自然语言处理实验室等联合发布的中文医学知识图谱CMeKG标注文档，进一步将疾病细分为：疾病名或综合症名、受伤或中毒、器官或细胞损伤，将治疗细化为：药物、手术。每年举行一次的全国知识图谱与语义计算大会（CCKS）则将实体类型限定为：疾病与诊断、解剖部位、药物、检验、检查、手术。

表1.不同分类标签体系

如上图，上述几类实体分类标签（tag）体系有其特色，也存在一些问题：1）粒度不一致，这一点从医疗问题、疾病、治疗不断细分的过程可以说明。2）tag体系不完整，从应用来说，电子病历中存在很多属性类实体，比如“阴性／阳性／是否本人／既往／现在／时间”等，这些都是很重要的医学信息，但没有分类标签覆盖。3）CCKS 的分类标签体系对下游应用更友好，但其更偏重工业应用角度。

解决思路

融合SNOMED CT构建更完善的术语词表

鉴于当下电子病历实体类型存在粒度不一致、体系不完整等问题，本文提出融合了 SNOMED CT 构建自洽性更强的中文病历实体分类标签体系。

SNOMED CT 是 Systematized Nomenclature of Medicine -Clinical Term 的缩写，全称是医学系统化命名-临床术语。它由两大医学术语 SNOMED RT（Reference Terminology）与 CTV3（Clinical Terms Version 3）合并而来，结合 SNOMED RT 在基础科学、实验室医学、专科和病理学方面的内容，以及英国 READ Codes 术语有关全科医疗的工作成果，成为一部国际性、多语种、包含内容最为广泛的临床医学术语集。SNOMED CT 目前形成了19个顶层概念（下一节详细介绍标签的意义和使用场景），这些顶层概念下包含了约 321,900 条子概念（Concept）。

病历文本可以抽象为很多对（主体、属性集合），融合SNOMED CT医学术语和标签体系，病历中典型的主体可以分为：疾病与诊断、临床表现、药物、手术、检验、检查、评估表、观察对象，每一类主体会有典型的修饰属性。

以“患者最近3年一直都有阵发性的胸痛”主诉文本识别为例， “胸痛”是主体内容，“3年”是该主体的时间限定，“阵发性”是修饰限定。限定内容的维度可以抽象为主体的属性，比如“3年”限定的维度是时间属性，“阵发性”是定语属性。

表2.融合SNOMED CT的新tag体系（注：标有颜色的概念对应一类实体类型，比如，疾病与诊断概念对应的实体类型也为疾病与诊断；实体名后面括号中数字是该实体类型名在SNOMED-CT中对应ID）

融合 SNOMED CT 标签体系和病历的“主体+属性集”特点，我们构建的新tag体系中，共设计了26个标签类型（见表2）。从医学术语角度来看，SNOMED CT标签体系的自洽性最好，而融合了 SNOMED CT 的新实体分类标签体系，则能够更好地支持下游任务，为面向临床诊疗和医疗管理的智能应用打下扎实基础。

“@工程狮”栏目专注于AI技术热点解读，我们将邀请资深的人工智能算法专家，从技术、政策多维度解读自然语言处理、深度学习模型等，把束之高阁的艰涩概念转化为“读得懂的AI技术”呈献给广大读者。

本期特邀专家：全福亮-惠每科技高级算法专家

下期主题：命名实体识别标签分类体系的意义和使用场景

编后语：

数据的结构化存储是数据分析处理和利用的关键，但从临床角度来看，描述性语言是电子病历应用的首选方式，电子病历系统中非结构化数据达85%以上[2]，且存在术语、编码标准不一，为计算机自动处理制造了障碍。

自然语言处理技术（NLP）在生物医学领域迅速发展，是医疗信息提取、知识发现的关键技术，是上层智能诊疗决策支持、医学科研等应用层的基础。NLP的关键性基础任务——命名实体识别（Named Entity Recognition,NER），是医疗信息抽取研究领域的重要扩展，本质上是一个医疗信息分类问题，该领域的基础夯实是影响NLP技术进展的重中之重。（编者：罗德芳）

参考文献：[1]杨锦锋, 于秋滨, 关毅,等. 电子病历命名实体识别和实体关系抽取研究综述[J]. 自动化学报, 2014, 40(8):1537-1562.

[2]李刚，浅谈大数据时代下的医院信息化建设，数字化用户，2017年第37期.

[3]完整SNOMED CT概念体系参考:https://browser.ihtsdotools.org/?perspective=full&conceptId1=64572001&edition=MAIN/2020-07-31&release=&languages=en.