精准医学知识库构建,助推医疗发展

2020-04-25

目前,国外机构知识库软件的开发与利用已相对成熟,常用的IR软件有5种,其中最为常用的为DSpace与EPrints。DSpace可免费安装并可根据需求对其进行修改。EPrints可支持多格式、多文件的输入输出,并可以进行RSS订阅。

基于成本、安全问题等多因素的考虑,医院选择自主搭建知识库框架,服务器利用Linux 系统,编程语言选择PHP,数据库为MySQL。

 

国外常见的医学知识库信息来源

一般而言,医学知识库的信息来源主要是从公共的组学数据库、诊疗数据库、海量文献着手。

第一是公共的组学数据库,如NCBI、Ensembl、dbSNP、OMIM、PharmGKB、ClinVar、COSMIC等,我们可以从中提取变异的组学属性;第二是FDA、CFDA、EMA、Drugbank、Clinical Trial、NCCN指南、ASCO、ESMO等诊疗数据库,可从中提取临床诊疗方案;第三则是从公众文献库如Pubmed中获取的海量文献。

这些文本文献中的研究提供了关联临床表型、组学变异与诊疗效果这三方面的关系证据。

 

精准医学知识库的难点

构建医学知识库的最大难点就在于怎么去整合不同来源、不同层次、不同结构的多维数据和信息。不同层次的变异的数据特征差异很大,需要制定好各变异层次的元数据规范,进行有效的数据整合对接。

基于此,医学知识库便需要匹配不同的系统来源的数据。例如,临床纬度的信息,第一要素是疾病病种。而关于疾病命名及分类的系统有WHO的ICD系、等多个不同的系统。这些不同的系统对疾病的命名与分级并不完全一致,在整合采用不同系统的数据库时就必须做数据匹配。

其次,是规范各变异层次的元数据。在组学方面,层次范围广,有基因组学、转录组学、蛋白质组学、表观遗传组学等。仅仅在基因组学上就有单核苷酸变异、插入、缺失、替换、重复、拷贝数变化、转座、染色体微变化、核型等多种不同层次变异。不同层次的变异的数据特征差异很大,需要制定好各变异层次的元数据规范,进行有效的数据整合对接。

 

如何精准医学知识库

上文提到医学知识库的信息来源之一,便是公共的组学数据库,那么要想解决医学知识库的难点,就要统一标准化的组学数据。尽管近年来,分子生物和遗传学界为统一标准化组学数据做出了很多努力。不过根据目前的数据来看,这些标准并没有被广泛应用。

若想解决医学知识库难题,精准医学知识库,核心是要对组学变异与临床信息关联关系的注释。例如易感类注释,易感基因BRCA1,BRCA2,它们是癌症相关基因,其正常表达能抑制恶性肿瘤发生。iCMDB中收录了这两个基因中三千多个被ACMG划分为有害、可能有害、不确定等等级的位点,以及剩下的七千多个被归类为可能良性、良性等级的位点。

那些位点不仅有研究设计的循证等级、样本量、研究人种信息,还包括了总生存期、无进展生存期等准确的治疗效果数字信息。

同时,需要精准医疗数据分析平台搭建,从群体研究到个体应用,有了基于群体研究证据的医学知识库,才有了搭建精准医学数据分析注释平台、进行个体化临床应用的基础。

随着数据的积累,特别是二代测序大数据的积累,分析注释平台也必须具备大数据搜索、储存、和分库管理能力,才能实现高效的临床应用。并且,需要对接医院HIS、EMRS系统的病人基本信息、病理信息、随访数据等信息的录入和安全管理平台。以此才能精准医学知识库,发展国内医疗。

成为我们的合作伙伴

信息提交
姓      名
所在地区
单位名称
手  机  号

提交

感谢您的关注,我们会尽快与您取得联系!