随着大量研究工作的完成,特别是千人基因组计划、癌症基因组图谱计划等大规模、高通量测序工作的完成,每年都会产生大量的测序数据 。精准医学是基于大样本、海量数据进行研究分析,最终达到精准预防、精准诊断、精准治疗的目标 。因此,面对海量的生物医学数据,整合建设了一批高质量的生物医学和精准医学知识库 。这些数据库可以帮助研究人员和医生全面获取各种生物医学文本信息和组学数据,为研究和临床决策提供充分的依据 。
文章插图
代谢组学分析流程
1.在线人类孟德尔遗传数据库
在线人类孟德尔遗传(OMIM)是1987年基于人类孟德尔遗传建立的数据库,它将已知的遗传疾病与相应的基因和临床信息联系起来 。该数据库主要由约翰霍普金斯大学维护和更新 。OMIM一直保持着稳定的更新速度 。数据来自已发表或即将发表的生物和医学文献 。相关文章已经确定和讨论,并写入数据库成为相关项目 。这个数据库虽然只提供了基因和临床的一些基本信息,但里面嵌入了基因组、DNA、蛋白质、临床、突变、动物模型、细胞系、通路等相关数据库的链接 。以便访问者可以随时跳转获得更详细的数据 。
2.基因型和表型数据库
基因型和表型数据库(dbGaP)是由美国NIH赞助的数据仓库,用于存档、选择和发布基因型和表型相互作用研究产生的信息 。dbGaP中的信息以层级结构组织,包括注册的受试者、表型(作为变量和数据集)、各种分子实验数据(SNP和表达阵列数据、序列和表观基因组标记)、分析和记录 。公众可访问的元数据、抽象水平数据和关于提交研究的研究相关文件可以在dbGaP网站上免费访问,来自世界各地的科学家可以通过受控访问应用程序访问个人水平数据 。
3.人类染色体不平衡和表型数据库
许多罕见疾病患者的基因组中存在基因变异,包括序列变异或拷贝数变异(CNV),这会影响基因的表达并导致疾病 。然而,许多变异是全新的或罕见的,这使得临床上难以解释,基因型和表型的关联存在不确定性 。使用Ensembl资源的人类染色体不平衡和表型数据库(decrypt)是一个基于网络的交互式数据库,它集成了一系列工具来帮助分析基因变异 。用户可以通过搜索与患者变异相关的生物信息学资源信息来增强临床诊断,并在相应的位点显示正常变异和致病变异,从而显示报告 。
4.癌症基因数据库
ize:15px;">癌症基因数据库(Cancer Genome Anatomy Project,CGAP)是美国国家癌症研究所于1996 年发起并建立和主持的交叉学科的数据库,主要收集了正常组织、癌前组织及癌细胞的基因表达水平,用来提高癌症的检测、诊断水平及改善病患治疗情况 。CGAP共分为5个部分:人类肿瘤基因索引(Human Tumor Gene Index,hTGI),指明了在人类肿瘤发生过程中的基因表达;分子表达谱(Molecular Profile,MP),展示了从分子水平分析人类组织样品的概念;癌症染色体变异计划(CancerChromosome Aberration Project,CCAP),描述了肿瘤转移相关的染色体改变;遗传注解索引(Genetic Annotation Index,GAI),指明和描述了同种癌症相关的多态性;小鼠肿瘤基因索引(Mouse Tumor Gene Index,mTGI),确定了在小鼠肿瘤发生过程中的基因表达 。
5.癌症体细胞突变目录
癌症体细胞突变目录(Catalogue of Somatic Mutation in Cancer,COSMIC)是Sanger 研究所建立的全球最大、最全面的关于肿瘤体细胞突变及其影响的数据库,截至2019年9月发布的v90 版本,该数据库共发布了超过140万个肿瘤样本中9 733 455个编码区突变、12 099 101个非编码区突变、19 396个基因融合事件、1 207 190个拷贝数变异等,涵盖了基因组绝大部分与肿瘤相关的变异信息 。COSMIC收集的信息均是通过科学文献手工编审的,有着非常精确的疾病类型定义和患者细节信息,还对所有的体细胞突变在人类基因组和每个受影响的编码基因中都进行了注释,并且和疾病类型关联 。
6.人类肿瘤驱动基因数据库
人类肿瘤驱动基因数据库(Database for Human Cancer Drive Gene Research,DriverDB)是由我国台北振兴医院小儿麻痹科于2013年牵头建立的,收集了超过6000例外显子测序数据及注释数据库和专用于驱动基因或突变识别的公开生物信息算法,该数据库主要从“肿瘤”(Cancer)和“基因”(Gene)两个角度,帮助研究人员设想癌症和驱动基因或突变之间的关系 。“Cancer”部分为针对具体癌症类型总结的驱动基因的计算结果,“Gene”部分从多层面描述一个基因的突变信息 。
7.人类基因突变数据库
人类基因突变数据库(Human Gene Mutation Database,HGMD)是从1996年开始,由英国卡迪夫大学医学遗传研究所维护的关于人类生殖系突变数据的数据库,这些突变数据构成了人类遗传病的基础或者与人类遗传病相关 。目前HGMD 中所有的突变共分为以下几类:致病突变(disease-causing mutation)、可能的病理突变(probable/possible pathological mutation)、功能基因多态性(functional polymorphisms)、带功能证据的疾病相关多态性(disease-associated polymorphisms with supporting functional evidence)和移码或截断变异(frameshiftor truncating variant) 。HGMD主要分为公开和专业两个版本,其中公开版本向研究机构和非营利性机构的注册用户免费开放,而专业版本向商业或营利性机构开放,需要付费订阅 。
8.人类单核苷酸多态性数据库
人类单核苷酸多态性数据库(Single Nucleotide Polymorphism Database,dbSNP ) 是1998年由美国国家生物技术信息中心( National Center for Biotechnology Information,NCBI)和国家人类基因组研究所(National Human Genome Research Institute,NHGRI)联合建立的包含群体序列变异的数据库 。该数据库将核苷酸序列的变异分为单碱基多态性、小的插入或缺失多态性、序列不变区域、微卫星重复、命名的变异和未知的杂合位点共6类,其中单碱基替换占据的比例最大,为99.77% 。dbSNP 不只包含引起疾病的临床突变,也包含中性的多态性,并且dbSNP 并不仅有人类的SNP 数据,也包含其他物种,但是从2017年9月1日起,dbSNP不再接受非人类的变异数据 。
9.序列变异与人类表型关系公共档案数据库
序列变异与人类表型关系公共档案(ClinVar)数据库是2012年美国NIH建立的将变异、临床表型、实证数据及功能注解与分析4个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库 。它深度整合了多个数据库,包括在变异信息中整合了dbSNP 与染色体结构变异数据库(dbVar),在表型信息中由MedGen 获得表型描述等 。ClinVar数据库中所收录的变异与表型之间的关系一般是通过临床试验或者研究文献编审的,包含全基因组关联分析(genome-wide association study,GWAS)中被确定的变异且已被编审,并且提供的临床意义解释也被收录其中,总之ClinVar数据库为疾病临床表型与基因型的研究提供了重要的研究基础 。
文章插图
摘自:信息化与精准医疗研究丛书
《面向精准医疗的多组学研究》
赵杰 杨梅佳 张旭 王琳琳 编著
《面向精准医疗的多组学研究》
¥58
加入购物车
文章插图
内容简介
精准医疗是医学发展的客观必然,基于多种组学数据,能够更透彻地理解疾病,更精准地指导疾病诊断与个性化治疗 。本书不但对多组学的基础和研究技术进行了阐述,总结了现有临床和科研上的主要成果;也从数据处理的角度出发,详细阐述了各组学的数据处理过程及相关软件,分析总结了现有多组学数据整理利用的方法和成果 。
本书适宜临床医学、生物学、检验医学等领域从业人员参考使用 。
文章插图
科学出版社赛医学(sci_med)
【医学科研项目有哪些 大学生科研项目有哪些】科学出版社医药卫生分社订阅号