快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

文章目录

迄今为止规模最大的蛋白质语言模型问世了!

一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。

一年后,Meta带着速度快一个数量级的ESMFold来了。

不光速度快,模型还足足有150亿个参数。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

LeCun发推称赞,这是Meta-FAIR蛋白质团队的伟大新成果。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

共同一作Zeming Lin透露,30亿参数的大模型在256个GPU上训练了3个星期,而ESMfold在128个GPU上用了10天。至于150亿参数的版本,目前还不清楚。

他还表示,代码随后肯定会开源,敬请关注!

又大又快!

4又大又快!

今天,我们的主角是ESMFold,一个从蛋白质个体的序列,直接进行高准确度、端对端、原子层级结构预测的模型。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1

150亿个参数带来的好处不必多说——通过训练,如今的大模型可以在原子大小的精度上预测蛋白质的三维结构。

从准确度上看,ESMFold和AlphaFold2、RoseTTAFold差不多。

但是,ESMFold推测速度要比AlphaFold2快一个数量级!

一下说数量级可能不好理解三者之间速度的对比,看看下面这张图就懂了。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

150亿参数的蛋白质语言模型

4150亿参数的蛋白质语言模型

接下来我们就来具体说说Meta这款全新的ESMFold。

ESM-2是一个基于Transformer的语言模型,并使用注意力机制来学习输入序列中成对氨基酸之间的相互作用模式。

相对于上一代模型ESM-1b,Meta对模型结构、训练参数进行了改进,并增加了计算资源和数据。同时,相对位置嵌入的加入,使模型能够推广到任意长度的序列。

从结果来看,具有1.5亿个参数的ESM-2模型比具有6.5亿个参数的ESM-1b模型表现得更好。

此外,在结构预测的基准上,ESM-2也超过了其他的蛋白质语言模型。这种性能的提高与大型语言建模领域建立的规律是一致的。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

随着ESM-2规模的增加,可以观察到语言建模的精度有很大的提高。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

SMFold和AlphaFold2的一个关键区别是,ESMFold使用语言模型表示,消除了对明确的同源序列(以MSA的形式)作为输入的需要。

ESMFold通过用一个处理序列的Transformer模块取代处理MSA的计算昂贵的网络模块,简化了AlphaFold2中的Evoformer。这种简化意味着ESMFold的速度大大提高,远高于基于MSA的模型。

折叠主干的输出接下来又被一个结构模块处理,它负责输出最终的原子级结构和预测的置信度。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

研究人员将ESMFold与AlphaFold2和RoseTTAFold在CAMEO(2022年4月至2022年6月)和CASP14(2020年5月)测试集上进行比较。

当只给单一序列输入时,ESMFold的表现要比Alphafold 2好得多。

而当使用完整的管道时,AlphaFold2在CAMEO和CASP14上分别达到了88.3和84.7。ESMFold在CAMEO上取得了与RoseTTAfold相当的准确率,其平均TM分数为82.0。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

作者介绍

4作者介绍

本文的共同一作是来自Meta AI的Zeming Lin。

快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2

据个人主页介绍,Zeming在纽约大学攻读博士学位,并在Meta AI担任研究工程师(访问),主要负责后端基础设施的工作。

他本硕都就读于弗吉尼亚大学,在那里,他和Yanjun Qi大佬一同做有关机器学习应用的研究,尤其是在蛋白质结构预测方面。

感兴趣的领域为深度学习、结构预测,以及信息生物学。

© 版权声明

相关文章