2003年,《人类基因组计划》宣告完成,首次公布了人类的“生命说明书”。彼时的科学界欢呼雀跃,许多人认为,我们终于掌握了人体的完整遗传密码。然而,伴随着人类对基因组认知的不断发展,科学家们越来越清晰地意识到,想要完全读懂这本“生命说明书”远没有那么简单。事实上,那个完整序列中,仍有约15%的区域由于技术限制而未能解析,尤其是重复片段、结构复杂的染色体中部和Y染色体的大片空白地带。这些区域被称为“基因组的暗物质”,常年被忽视,甚至被冠以垃圾DNA之名。
7月23日发表的两篇《自然》研究(图片来源:参考文献[1、2])
但在过去十年中,随着长读长测序技术飞跃发展,人类开始重新探索这些被边缘化的基因组区域。而最新发表于《自然》(Nature)的两项研究,正是这一探索的里程碑,科学家首次对全球超过1000名人群样本进行超高精度的基因组测序,不仅绘制出前所未有的人类结构变异图谱,还实现了大量染色体从端粒到端粒的全长拼接。这些突破性成果正在颠覆我们对基因组完整性的传统理解。
曾被称为沉默的区域,如今被发现活跃异常,曾被视作无功能的“跳跃基因”,也可能是诱发疾病的幕后推手。
跳跃的基因、消失的片段——我们身体中真正多样的遗传蓝图
当我们谈论基因变异时,大多数人首先想到的是“突变”——DNA四个碱基AGCT中某一个碱基“打错了字”。但事实上,在人类基因组中,很多变异往往不是单个字母的拼写错误,而是整段段“词组”甚至“段落”的增删、倒置、重复和移动。科学家将这些影响范围更大的变异称为结构变异(StructuralVariants,SVs)。
2025年7月,欧洲分子生物学实验室(EMBL)的研究人员对来自全球五大洲、26个族群的1019个人进行了长读长基因组测序,构建出目前为止最全面的人类结构变异图谱。研究共鉴定出超过10万个已知和新发现的结构变异,平均每人携带近2.5万个此类变异。这些变异包括大段插入、缺失、倒位、重复,广泛分布于基因组的各个角落。
对26个族群的1019个人长读长测序示意图(图片来源:作者使用AI生成)
其中最引人注目的,是被称为“跳跃基因”的转座元件(Transposons)。这些基因并不像传统编码基因那样“按部就班”地固定在染色体上,而是具有“剪切-粘贴”的模式,能够在基因组中不断移动、插入新位置。最常见的几类跳跃基因,包括LINE-1、Alu和SVA等,都在这次研究中被系统识别与定位。
过去,人们常把这些跳跃基因当成“基因组里的寄生虫”或“分子噪音”,认为它们对生命体毫无益处。但新研究发现,这些元素不仅不是无用,而且可能直接影响基因表达调控、染色体稳定性,甚至与癌症、免疫疾病、神经发育障碍等密切相关。
例如,研究发现某些SVA跳跃基因并非随机插入,而是能“劫持”附近的调控序列,如长链非编码RNA,从而极大增强自己的转录活性。这种搭便车策略不仅提升了自身的复制能力,也可能对附近基因的表达造成破坏性干扰。更令人惊讶的是,这些活跃的跳跃基因在不同人群中的数量、分布差异显著,提示它们或许正是塑造人类个体差异的幕后力量之一。
换句话说,我们之所以在疾病易感性、药物代谢方式乃至某些复杂性状上存在差异,可能不仅是因为点突变,更是因为我们身体中携带着数量与位置各异的跳跃模块。这些结构变异,正悄无声息地影响着我们基因组的功能表达。
从“拼图”到“地图”——技术革新如何让我们看清人类多样性
如果说过去我们对基因组的理解像是在拼一幅缺失多块的拼图,那么现在,科学家终于拥有了一套更精细的地图工具。这一次的技术革命,得益于长读长测序技术的飞跃式发展,以及对基因组结构进行图谱式重建的能力。
在本次研究中,科学家使用了两种互补的长读长测序平台,相比传统的短读长测序只能读取100–150个碱基,这些新平台可以连续读取上万、甚至几十万个碱基,极大减少了拼接盲区。正是依靠这些超长片段,研究人员得以首次穿透过去无法解析的重复区域、倒位片段与着丝粒黑箱。
不仅如此,两项研究还分别构建了全球1019个样本的中等覆盖结构变异图谱,以及65个个体的超高质量、双倍体、几乎无缺口的全基因组序列。后者中的许多染色体已经达到了 “端粒到端粒”的完整度,也就是每条染色体从头到尾都被清晰解析,没有任何未定义的空白区。
这意味着什么?科学家首次得以全面描绘着丝粒,也就是染色体在细胞分裂时的牵引点,此前这些区域因重复度高而难以测序。在这次研究中,科学家不仅完整拼出1246个着丝粒,还发现其中约7%可能存在“双锚点”结构,即可能同时存在两个微管附着位点。这一结构的不对称性,可能导致染色体分裂异常,是某些遗传病和肿瘤易感性的潜在根源之一。
此外,这些研究也借助图谱型参考基因组这一新兴模型,将不同个体之间的遗传差异并置比较,构建出一种“多样性视角”的人类基因组地图。图谱式组装方法打破了传统“单一参考基因组”的限制,使研究者可以在同一框架下观察不同人群的特异性结构变异,从而提高疾病变异检测的准确性与敏感度。
值得注意的是,科学家还发现,来自非洲人群的样本所携带的结构变异最多,尤其是稀有变异种类显著高于其他大陆人群。这再次印证了一个长期的演化观察结果,非洲人群是现代人类的最早起源地之一,也因此保留了最多的遗传多样性。这些稀有变异可能正是未来疾病研究与个体化医学的重要线索来源。
简言之,技术的进步不只是“看得更清楚”,更是改变了我们看待基因组的方式。从线性基因组到图谱基因组,从短读段到超长读长,从拼图碎片到完整地图,人类终于开始真正“看懂”自己的遗传蓝图。
总结
我们以为早在20多年前就读懂了人类基因组,实际上却错过了那些最难读、也最有价值的部分。这些被长期忽视的重复序列、跳跃基因和结构变异,正是塑造人类多样性、疾病易感性乃至进化方向的关键所在。
今天,借助长读长测序和图谱式拼装技术,科学家首次全面描绘了人类基因组的“隐藏地图”,为精准医学、遗传病研究和演化生物学提供了前所未有的参考框架。
参考文献:
[1] Logsdon, Glennis A., et al. "Complex genetic variation in nearly complete human genomes." Nature (2025): 1-12.
[2] Schloissnig, Siegfried, et al. "Structural variation in 1,019 diverse humans based on long-read sequencing." Nature (2025): 1-11.
[3] Byrska-Bishop, Marta, et al. "High-coverage whole-genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios." Cell 185.18 (2022): 3426-3440.
[4] Sudmant, Peter H., et al. "An integrated map of structural variation in 2,504 human genomes." Nature 526.7571 (2015): 75-81.
作者丨Denovo科普团队(杨超 博士、中国科普作家协会会员、广东省青年科技创新研究会会员)
审核丨林秋鹏 华南农业大学教授