当前位置: AI资讯 > 内文

技术迭代 惠每NLP在CBLUE医学命名实体识别中表现优异

2022-6-30 关键词:医疗AI

自然语言处理(NLP)是医疗信息提取、知识发现的关键技术,也是医疗人工智能应用层的基础。为推动中文医学NLP技术和社区的发展,2021年4月,中国中文信息学会医疗健康与生物信息处理专业委员会发起了中文医疗信息处理挑战榜(CBLUE),榜单自上线以来在行业引起广泛关注,并逐渐发展成检验AI中文医疗信息处理能力的“金标准”。近期,惠每科技依托机器学习模型的新技术升级,选择医学预训练模型HMBert参与了CBLUE2.0公开评测。

01

医学预训练模型HMBert

医学预训练模型HMBert是在Roberta模型(谷歌bert模型的改进版)基础上,使用200G的医学文本数据(包括书籍、论文、电子病历、新闻等),对Roberta模型进行进一步预训练而产出。在训练过程中,将囊括100万+医学术语及其医学关系的医疗知识图谱融入模型训练,使模型充分学习到任务数据中的医学实体知识。

在电子病历后结构化的医学命名实体识别、医学实体关系、医学实体规范化等多个任务中,相比基于CNN(卷积神经网络)、LSTM(长短期记忆网络)模型的解决方案,基于HMBert预训练模型的解决方案在各个任务上都取得了非常明显的性能提升。

图1 医学预训练模型HMBert示意图

02

CBLUE2.0单项任务CMeEE

CBLUE2.0设置了医学文本信息抽取、医学术语归一化、医学文本分类等5大类评测任务,HMBert参与的是其中的医学命名实体识别(CMeEE)单项任务评测。任务的目标是对于给定的一组纯医学文本文档,识别并抽取出与医学临床相关的实体,并将他们归类到预先定义好的类别。

CMeEE数据集全称是Chinese Medical Entity Extraction,由北京大学、郑州大学、鹏城实验室和哈尔滨工业大学(深圳)联合提供,这是一个标准的医学命名实体NER识别任务,共包括9大类实体:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。和传统NER略有不同的是,这个任务的实体之间存在嵌套关系,嵌套实体是医学文本中常见的现象,因此在模型处理上要比通常的医学命名实体识别模型复杂。HMBert在该项任务评测中,以领先的医学命名实体识别能力,获69.626分,在205支参与CMeEE评测的团队中排名第三。

图2 2022年6月HMBert在CMeEE中的评测结果(点击CMeEE排名)

医学命名实体识别对于患者精准画像、智能医疗决策支持等都具有重要意义,其识别能力直接关系AI场景应用效果。惠每科技在中文病历NLP处理领域有丰富的技术积累,随着医学预测练技术的升级,将进一步加筑惠每医疗人工智能解决方案技术壁垒,为临床诊疗决策、病案首页与运行病历质控、单病种质量管理控制与数据上报、在院患者疾病风险预警、DRG/DIP费用管理等智能场景应用打下扎实基础。

惠每医疗人工智能解决方案目前已落地国内400余家医院,包括36家复旦版TOP100医院,助力超过100家医院通过“电子病历”“互联互通”高级别评审。未来将一如既往地秉承“质量为生命”,利用AI技术持续精研CDSS产品和应用场景,为医疗质量管理与提升带去行之有效的技术与方法。

附:CBLUE挑战榜介绍

成为我们的

合作伙伴

医院演示预约
提交以下真实信息,我们将尽快联系您