表1.不同分类标签体系
如上图,上述几类实体分类标签(tag)体系有其特色,也存在一些问题:1)粒度不一致,这一点从医疗问题、疾病、治疗不断细分的过程可以说明。2)tag体系不完整,从应用来说,电子病历中存在很多属性类实体,比如“阴性/阳性/是否本人/既往/现在/时间”等,这些都是很重要的医学信息,但没有分类标签覆盖。3)CCKS 的分类标签体系对下游应用更友好,但其更偏重工业应用角度。
03
解决思路
融合SNOMED CT构建更完善的术语词表
鉴于当下电子病历实体类型存在粒度不一致、体系不完整等问题,本文提出融合了 SNOMED CT 构建自洽性更强的中文病历实体分类标签体系。
SNOMED CT 是 Systematized Nomenclature of Medicine -Clinical Term 的缩写,全称是医学系统化命名-临床术语。它由两大医学术语 SNOMED RT(Reference Terminology)与 CTV3(Clinical Terms Version 3)合并而来,结合 SNOMED RT 在基础科学、实验室医学、专科和病理学方面的内容,以及英国 READ Codes 术语有关全科医疗的工作成果,成为一部国际性、多语种、包含内容最为广泛的临床医学术语集。SNOMED CT 目前形成了19个顶层概念(下一节详细介绍标签的意义和使用场景),这些顶层概念下包含了约 321,900 条子概念(Concept)。
病历文本可以抽象为很多对(主体、属性集合),融合SNOMED CT医学术语和标签体系,病历中典型的主体可以分为:疾病与诊断、临床表现、药物、手术、检验、检查、评估表、观察对象,每一类主体会有典型的修饰属性。
以“患者最近3年一直都有阵发性的胸痛”主诉文本识别为例, “胸痛”是主体内容,“3年”是该主体的时间限定,“阵发性”是修饰限定。限定内容的维度可以抽象为主体的属性,比如“3年”限定的维度是时间属性,“阵发性”是定语属性。
表2.融合SNOMED CT的新tag体系(注:标有颜色的概念对应一类实体类型,比如,疾病与诊断概念对应的实体类型也为疾病与诊断;实体名后面括号中数字是该实体类型名在SNOMED-CT中对应ID)
融合 SNOMED CT 标签体系和病历的“主体+属性集”特点,我们构建的新tag体系中,共设计了26个标签类型(见表2)。从医学术语角度来看,SNOMED CT标签体系的自洽性最好,而融合了 SNOMED CT 的新实体分类标签体系,则能够更好地支持下游任务,为面向临床诊疗和医疗管理的智能应用打下扎实基础。
“@工程狮”栏目专注于AI技术热点解读,我们将邀请资深的人工智能算法专家,从技术、政策多维度解读自然语言处理、深度学习模型等,把束之高阁的艰涩概念转化为“读得懂的AI技术”呈献给广大读者。
本期特邀专家:全福亮-惠每科技高级算法专家
下期主题:命名实体识别标签分类体系的意义和使用场景
编后语:
数据的结构化存储是数据分析处理和利用的关键,但从临床角度来看,描述性语言是电子病历应用的首选方式,电子病历系统中非结构化数据达85%以上[2],且存在术语、编码标准不一,为计算机自动处理制造了障碍。
自然语言处理技术(NLP)在生物医学领域迅速发展,是医疗信息提取、知识发现的关键技术,是上层智能诊疗决策支持、医学科研等应用层的基础。NLP的关键性基础任务——命名实体识别(Named Entity Recognition,NER),是医疗信息抽取研究领域的重要扩展,本质上是一个医疗信息分类问题,该领域的基础夯实是影响NLP技术进展的重中之重。(编者:罗德芳)
参考文献:[1]杨锦锋, 于秋滨, 关毅,等. 电子病历命名实体识别和实体关系抽取研究综述[J]. 自动化学报, 2014, 40(8):1537-1562.
[2]李刚,浅谈大数据时代下的医院信息化建设,数字化用户,2017年第37期.
[3]完整SNOMED CT概念体系参考:https://browser.ihtsdotools.org/?perspective=full&conceptId1=64572001&edition=MAIN/2020-07-31&release=&languages=en.
成为我们的
合作伙伴