《科学》封面重磅:迄今最完整的人类基因组测序结果公布

2022-04-01
关注
摘要 人类的基因组常被比作是一本书写生命的“天书”,只有A、T、C、G四种“字母”——代表构成DNA的四种碱基,但字数多达60亿个,分布在23对染色体中,无穷的组合蕴含着人类进化、生老病死的无数奥秘。

原标题:新的里程碑!新的里程碑!《科学》封面重磅:迄今最完整的人类基因组测序结果公布

21世纪之初,人类基因组序列的第一版草图问世,尽管并不完整,却已经在生物医学领域产生了深远的影响,为临床研究、药物开发和医疗实践的发展提供指引。

时隔二十一年,人类基因组测序领域迎来了新的里程碑:一份更完整的、无间隙的人类参考基因组。

本周,《科学》杂志同时上线的6篇论文中,一个名为“端粒到端粒”联盟(T2T)的国际科研团队宣布完成了最新的人类参考基因组(被命名为T2T-CHM13),包括所有22条常染色体和X染色体的无缝组装。其序列包含30.55亿对碱基,不仅在过去的基础上增加了近 2亿碱基的遗传信息——相当于一条人类染色体包含的信息,还纠正了过往基因组序列上的许多错误,并解锁了人类基因组中结构最为复杂的一些区域。

填补最后8%的空白

由于当时的测序技术所限,第一版人类基因组测序草图中留有许多空白。2013年完成的新版本并经过2019年的更新后,人类基因组测序结果中仍有数百万个碱基由字母“N”表示,代表着该位置的实际碱基未知。更重要的是,占人类基因组大约8%的生物学重要区域处于未探明的状态。

为了填补最后的空白,来自几十个研究机构的近100名科学家组成了大型团队“T2T联盟”,也就是对每条染色体从一端的端粒到另一端的端粒进行测序。随着此次研究成果的集中发表,用团队领导人之一、华盛顿大学Evan Eichler教授的话说,我们在生命天书中“读到了以前从未读过的章节”。

▲相比先前的人类参考基因组(GRCh38),此次的新版本T2T-CHM13填补了所有原先的空白,在过去未解决的基因组区域内,每个样本中发现了数十万个变异,为理解进化和生物医学新发现提供机会(图片来源:参考资料[2])

读取基因组时,科学家首先将所有DNA切成数百到数千个字母长的片段,由测序机器读取每个片段中的字母,然后科学家们试图以正确的顺序组装片段,就像玩一个超级复杂的拼图。

这个过程中的一大挑战是,基因组中的某些区域由大段重复字母组成,就像拼图中有些板块由看起来一样的碎片组成,而这些区域往往具有重要的生物学特征,某些情况下还与人类疾病有关。另一个难点是,绝大多数细胞内包含两套基因组,分别来自父亲和母亲。当研究人员试图组装DNA片段时,两套基因组的序列混合在一起,就掩盖了两者本身具有的差异。

研究团队找到了一种只含单个基因组的细胞系来消除上述等位基因多样性的问题。这种特殊的细胞系来自所谓的葡萄胎,是一种异常胚胎,受精后仅保留一个亲本的基因组副本。

攻克难关的关键进展还离不开测序技术的重大飞跃。基于具有革命性突破的长读长测序技术,研究者可以解码更长的序列,甚至一次准确读取多达百万级的碱基对也不成问题。

解锁最复杂的区域

此次解锁的新序列大约90%来自染色体的着丝粒。在形成精子或卵子的减数分裂过程中,着丝粒是成对染色体分离时附着的地方。这个区域结构独特,包含长段重复序列,而且DNA和蛋白质似乎在这一区域缠绕得格外紧凑。

在T2T提供完整序列后,人类第一次有机会对着丝粒及其周围序列的作用一探究竟。

根据他们的分析,着丝粒以及附近区域有各种序列堆叠现象,通常是一段新序列覆盖在旧序列上。这一过程可以保证着丝粒与关键的动粒结构紧紧结合。动粒是着丝粒两侧的特化结构,参与染色体的移动过程。

▲着丝粒是一个包含高度重复 DNA 序列的区域,比较这些序列揭示了突变在数百万年中积累的位置,反映了每个重复序列的相对年龄(图片来源:参考资料[4];Credit:Nicolas Altemose, UC Berkeley)

旧序列会存在一些随机突变和缺失,说明这一段区域已经被弃用;新序列中突变和甲基化都更少,说明正在被使用。而着丝粒中含有大量重复长度的DNA序列,大约为171个碱基,这些重复单元会共同形成更大的重复结构并串联多次,构成了着丝粒中的重复序列区域。

着丝粒的重复序列在不同人之间同样会存在差异。其中一篇论文比较了全世界1600人的着丝粒序列后发现,非洲大陆以外的人,着丝粒(尤其是X染色体上的着丝粒)倾向于分成两大簇,还有一些有意思的突变会出现在有非洲人血统的人身上。未来,科学家或许能通过解析着丝粒序列来追溯人类的谱系,对人类的演化史探索有重要意义。

最后得到完整测序的区域

在此次发表的一系列成果中,研究人员着重分析了基因组中的重复片段在人类演化、遗传多样性的形成以及疾病中的重要作用。

重复片段(segmental duplication)是基因组中反复出现的、序列相似性超过90%以上的大段序列。无论是物种内还是物种之间的演化过程中,大多数的遗传变异都出现在重复片段区域,这里是产生新基因和新基因功能发生适应性变化的关键。但由于结构的复杂性,这里也是人类基因组中最后得到完整测序的区域。

现在,基于最新的完整人类基因组测序结果,科学家终于能够以更综合的视角审视人类的重复片段。在这类区域,科学家找到了182个全新的蛋白质编码基因,并且帮助我们理解一系列重要的演化与医学难题。

例如,比较人类与其他灵长类动物的测序结果,研究发现了与人类前额叶皮层扩张相关的基因TBC1D3,这将有助于重现古人类演化的历史。而在不同人类个体间,在重复片段区域编码脂蛋白的LPA基因,其数量与心血管疾病风险高度相关……

基于这项研究,我们能够全面理解重复片段的组织、表达与调控,并提升基因注释与基因分型。

在另一项研究中,康涅狄格大学Rachel O‘Neill教授领导的团队揭示了重复序列的转录与表观遗传状态。重复序列包含移动遗传元件,它们可以移动至基因组的其他区域。研究指出,一些多次重复的片段所包含的基因,能在很大程度上解释人类的遗传多样性。

除了从基因组的角度揭示特定重复序列对人类的影响,这项研究还从局部(例如着丝粒中)分析了重复序列的转录图景、描绘了甲基化的情形。这些结果将帮助我们理解转录在基因组稳定性以及染色体分离机制中的作用。

O‘Neill教授表示,接下来他们计划对更多不同人群进行基因组测序,从而更全面地理解人类多样性、疾病机制,以及我们与其他灵长类近亲的关系。

新的起点

“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就,为我们的DNA蓝图提供了第一份全面视图,”美国国家基因组研究所主任Eric Green博士评论说。

《科学》杂志的专题则这样总结:最新的人类参考基因组代表着“重要的一步,表明可以组装代表所有人类的模型,这将更好地支持个体化医疗、人口基因组分析和基因组编辑。”

您觉得本篇内容如何
评分

相关产品

Honeywell 霍尼韦尔智能工业 在线/便携烟气分析仪专用传感器 气体传感器

CO 传感器;SO2传感器;NO2 传感器;NO传感器;氧气传感器

微著科技 高性能传感器ASIC解决方案 MEMS传感器

微著科技是国内为数不多能够给传感器厂商提供定制高性能传感器解决方案的团队,目前已为国内众多院所及知名传感器公司提供了十余个传感器解决方案并已经实现量产。微著传感器ASIC方案的特点:成熟的仪表信号模块IP易于快速搭建;系统方案超低噪声;成熟的24ADC可同时实现模拟数字传感器方案设计;高效率及丰富的方案设计经验。

南方泰科 TGM 压力传感器

TGM是一款SOP8封装的压阻式MEMS压力传感器,其压力传感器芯片封装在 SOP8 塑封壳内。在传感器压力量程内,当用固定电压供电时,传感器产生毫伏输出电压,正比于输入压力。压力传感器芯片为绝压,可提供不同的压力量程的SOP8 压力传感器。

鑫精诚传感器 XJC-T001 压力传感器

◆传感器激光焊接密封,环境适应性较强 ◆球形联接件,始终保持模块的垂直称重状态 ◆支撑螺栓,防止设备倾覆且方便维护 ◆接地装置,保护传感器免受电源浪涌冲击 ◆过载保护装置,保护传感器免受冲击力

Huba Control 富巴 525系列 压力传感器

525系列压力传感器采用集公司20多年研发经验的陶瓷压力传感器芯片技术。该系列压力传感器可选压力范围大,电气连接形式多。最小量程为50mbar。大批量使用具有很好的性价比。

Winsen 炜盛科技 MH-410D 红外CO2气体传感器 红外传感器

MH-410D红外气体传感器是通用型、智能型、微型传感器,该红外传感器利用非色散红外(NDIR)原理对空气中存在的CO2进行探测,具有很好的选择性,无氧气依赖性,性能稳定、寿命长。内置温度补偿。该红外传感器是通过将成熟的红外吸收气体检测技术与微型机械加工、精良电路设计紧密结合而制作出的小巧型高性能红外传感器。该红外传感器可广泛应用于暖通制冷与室内空气质量监控、工业过程及安全防护监控、农业及畜牧业生产过程监控。

佰测传感 MS71 传感器

MS71差压传感器

Cubic 四方光电 PM3009BP 室外粉尘传感器

PM3009BP是一款专门针对餐饮油烟监测的油烟传感器,其采用旁流采样方式,自带除水雾装置,结合智能颗粒物识别算法,确保传感器能够快速准确的检测油烟浓度的变化,同时创新的镜头自清洁技术的应用,能够长效防护传感器油烟污染,大幅度延长传感器的使用寿命。

评论

您需要登录才可以回复|注册

提交评论

广告

西贝网

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

500米深井数字水温观测仪

提取码
复制提取码
点击跳转至百度网盘