根据CDSS对数据质量的标准要求,结合国家病历书写规范、医嘱书写规范等要求,本次报告收录了其中典型的16家三级医院实施过程中碰到的数据质量问题,通过汇总分析得出了以下结论:
16家医院的数据平均准确率为74.86%,问题分布在医嘱信息、生命体征、检验结果、手术记录等58种业务数据类型。在人员信息、医嘱信息、诊断信息等数据记录上较为规范,数据元覆盖率(字段有值率)和准确率趋近100%。底层数据质量最差的表现在检验信息、检查信息、病历信息记录方面,近七成医院检验信息数据不合规,一半医院检查信息数据质量不达标,主要问题在于数值为空、映射错误等。
通过人工标注验证及与医院信息部门、医务部门沟通,发现造成这些数据质量问题的原因,一是医生缺乏主动意识和动力,非必填的字段,在医院业务系统几乎都为空,医生在数据录入时往往能省则省。
二是医疗流程或业务使然,这在医嘱信息记录上表现最为明显。16家医院中,10家医院出现检验医嘱和检验报告不符或不规范(准确率76%),8家医院有检查医嘱与报告不符(准确率45%)、检查描述为空等。产生的原因:1)医院为提高患者救治效率开设一站式服务,往往是患者尚未入院就开了住院医嘱,造成医嘱时间在入院时间之前;2)在患者拒绝做某项检查或检验时,医院为规避风险不允许取消或作废该医嘱,导致医嘱记录单有未执行、未停止医嘱,或是医生在检验不达标时重开医嘱造成多条重复医嘱记录;3)部分科室开完检验医嘱后,为节省成本或时间选择在本科室做检验,导致有医嘱记录但PACS系统却没有检验报告记录。
三是术语标准不统一、不规范,造成数据在业务系统中的“二次污染”。例如,部分医院允许填写非ICD10的诊断,导致有些诊断是没有诊断编码的,但由于其采用的电子病历厂商提供诊断视图为过滤掉非ICD10诊断编码的诊断数据,所以数据采集过来之后部分入院诊断为空。
此外,部分业务系统厂商采用的模板不规范也会带来数据污染,比如模板采用数据时间格式为12小时制的,就会造成医院各项业务的时间值数据出现错误和混乱。
数据质量是影响医疗质量与安全的重要因素,据高纳德报告,低质量数据每年造成单个机构820万美金的成本耗损,加强数据治理已成为现代医院管理的重要课题。但数据治理并不是简单的业务数据“汇总”,尤其是医疗领域的数据治理面临诸多壁垒。
“医疗业务的特殊性以及医疗流程缺乏固定标准,使得医疗大数据在输入端存在’基因式缺陷’,比如检验检查报告时间早于入院时间,这一点很难要求临床医生纠正所谓的录入不规范,毕竟时间就是生命。”致力于医疗人工智能研发及数据治理的国家高新技术企业——惠每科技CTO王实表示,“在数据治理方法及技术层面,又面临着多源异构数据采集的技术问题、行业术语标准不统一和不同医院差异明显的流程性问题。”
“数据治理相当于矿石加工,治理的好坏影响数据应用的可信度和智能化程度,治理的程度直接决定数据资产的价值。”王实提出,医院数据治理总体原则应“从数据产生的源头控制,避免先污染后治理”,并遵循从应用倒推的治理方式。
首先,医院或者临床要提出数据应用的需求,专家一起讨论确定需要哪些数据;其次,确定需要从哪些数据源获取数据;最后才是确定数据治理的具体技术。“人工智能技术的飞速发展将推动传统人工数据梳理和管理方式,向智能化数据治理转变,大幅提升对数据安全、元数据、数据质量以及数据模型的管理能力。AI在助力医院加强数据治理‘内功修炼’的同时,也为更好的场景应用、预测未来打下基础。”王实强调。
成为我们的
合作伙伴