美国Meta公司开发的ESMFold预测超6亿个蛋白质三维结构,包含大量前所未见的结构,预测速度最高可达AlphaFold的60倍。
该团队将大量已知蛋白质的氨基酸序列输入大型语言模型进行监督学习训练,创建出迄今最大的蛋白质语言模型,可以原子分辨率预测蛋白质三维结构。相较基于多序列比对的AlphaFold,ESMFold仅基于氨基酸序列而不需额外信息就能进行结构预测,预测流程得到了简化,但其预测准确率不及前者。
ESMFold对来自环境土壤、海水、人体肠道与皮肤及其他微生物样本进行了宏基因组DNA测序,两周时间预测出超6.17亿个蛋白质结构,其中至少2.25亿属可识别原子层面的高精度预测,并且76.8%与已知蛋白质结构存在显著差异,12.6%完全不匹配,即宏基因组中储存着大量前所未见的蛋白质结构。基于语言模型的ESMFold扩大了蛋白质结构数据库,为解读复杂、未知蛋白质以及探索新物种提供了更简洁、简单且廉价的工具。
相关研究成果发表于biorxiv期刊。
版权声明:除特殊说明外,本站所有文章均为 字节点击 原创内容,采用 BY-NC-SA 知识共享协议。原文链接:https://byteclicks.com/42901.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有,文章内容仅代表作者独立观点,不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人,只供传递信息之用,非商务用途。如有侵权,请联系 gavin@byteclicks.com。我们将协调给予处理。
赞