染色体|首个完整无间隙人类基因组序列出炉( 二 )


由于重复区域的复杂性 , 剩下的8%的人类基因组多年来一直困扰着科学家 。 一方面 , 它包含具有多次重复的DNA区域 , 这使得使用以前的测序方法以正确的顺序将DNA串在一起具有挑战性 。
早期 , 被称为“短读长”的DNA测序技术一次只能读取相对较短的序列 , 也就是提供数百个DNA碱基序列 。 这是20年前唯一可用的基因组图谱技术 。 例如 , 假设基因组的一部分由连续重复9次的句子“只工作不玩耍 , 聪明孩子也变傻”组成 。 该技术只会显示其中的一部分 , 例如“只工作”“聪明”“孩子也”等 。 研究人员将这些简短的部分拼凑在一起 , 组成了这句话 , 但他们无法知道它被重复了9次 。 因此 , 运用该技术仍然会在组装的基因组序列中留下部分空白 。
对于10000块拼图 , 当它们看起来相似时 , 很难正确排列小块的区域 , 就像对重复DNA的小片段进行测序一样 。 但是对于500块拼图 , 正确排列大范围区域 , 即较长的DNA片段 , 要容易得多 。 因此 , “长读长”技术应运而生 。 技术的巨大进步使得研究人员能够对那些难以阅读的重复序列进行排序 。
在过去的10年中 , 出现了两种新的DNA测序技术——“长读长”技术 , 可在不影响准确性的情况下生成更长的DNA序列读数 , 甚至可一次阅读整个“句子”或“段落” 。
牛津纳米孔(Nanopore)的DNA测序方法(超长读长)一次可读取多达100万个DNA字母 , 准确度适中;而太平洋生物科学公司(PacBio HiFi)的DNA测序方法(高保真读长技术)可读取约20000个字母 , 准确度近乎完美 。 这两种测序的结合使T2T研究人员能够避开区域的重复 , 并确保装配的基因序列高度准确 。
还有一种工具是默芬(Merfin) , 研究人员用它来清理人类基因组中一些最困难的序列 。 默芬使准确测试序列成为可能 , 它可以感测可能不正确的代码并自动纠正错误 。 因为生成现代序列的技术更加准确 , 所以默芬仅用于最棘手的情况 。 例如 , 现有的技术很难评估像AAA这样的完全相同的碱基对 , 而默芬纠正了这种序列错误 。
换句话说 , 科学家们曾经以为 , 重复区域的拼图有着几乎一样的颜色和形状 , 比如看起来都像蓝天 。 但现在 , 更先进的测序技术使科学家们发现 , 这些重复的碎片图案实际不仅仅是蓝天 , 还有草地和太阳 。
破解生命“天书”最后“黑匣子”的第二个挑战是寻找仅包含一个基因组的细胞 。 标准的人类细胞包含两组DNA , 一组是母系DNA , 另一组是父系DNA , 但T2T团队使用的是一组被称为完全性葡萄胎的细胞的DNA , 其中仅包含父系DNA的副本 。 完全性葡萄胎是一种罕见的妊娠并发症 , 由来源于胎盘的细胞异常生长引起 。
这种方法简化了基因组 , 因此科学家只需对一组DNA进行测序 , 而不是两组DNA 。
基因组学一个关键里程碑
新序列补齐了人类基因组最后一块拼图 , 标志着基因组学领域的一个关键里程碑 。
新序列揭示了关于着丝粒周围区域的前所未见的细节 。 这将大大增加人们对染色体的了解 , 尤其是着丝粒及其作用 。 因为该区域对于了解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要 。
同时 , 新序列揭示了以前未被发现的节段重复 , 即在基因组中重复的长DNA片段 。 在人类基因组中的20000个基因中 , 大约950个起源于节段重复 。 这些人类特有的节段重复是新基因的储存库 , 这些基因会在发育中的大脑中驱动更多神经元的形成 , 并增强额叶皮质突触的连接性——可能与人类特有的高级思维、推理、逻辑和语言功能有关 。