晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
DeepMind去年公布了生物学界的AlphaGo——AlphaFold,只要知道蛋白质的氨基酸序列,就可以预测蛋白质分子的三维折叠结构。
△AlphaFold预测蛋白质结构
现在MIT把AI的预测能力又推进了一步,直接通过氨基酸序列预测蛋白质分子的生物学功能,跳过AlphaFold预测蛋白质立体结构的步骤。
他们的论文《Learning protein sequence embeddings using information from structure》将在今年5月的ICLR学术会议上公布。
如何预测蛋白质功能
研究人员先让模型学习一些特定蛋白质的功能,将蛋白质结构编码成表示,用不同蛋白质结构相似性来监督模型。
他们根据蛋白质结构分类数据库(SCOP),对数千各类别、大约22,000种蛋白质进行模型训练。然后,将蛋白质结构与氨基酸序列编码成嵌入(embedding)这种数字表示,随机组对送入模型中。
这种嵌入与NLP中的上下文表示类似,两种嵌入越相似,单词出现在同一个句子中的概率就越大。
像单词对语义的影响一样,氨基酸是蛋白质的“单词”,蛋白质就是整个“句子”,嵌入包含着每个氨基酸序列与另一个氨基酸序列的相似性信息,机器学习模型可以根据嵌入预测每个氨基酸对整个蛋白质功能的影响。
而且该模型还能预测蛋白质的接触图(contact map),即每个氨基酸与其他氨基酸之间的距离,与来自SCOP已知的接触图进行比较。
这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步预测每种氨基酸对功能的影响。
总的来说,对于某个氨基酸序列,该模型将为3D结构中的每个氨基酸位置产生一个嵌入表示。机器学习模型根据这些嵌入,基于接触图准确预测每个氨基酸的功能。
研究人员使用该模型预测哪些蛋白质可以通过细胞膜,所得结果的准确性已经超过之前最先进的模型。
用于药物研发和基因治疗
蛋白质是氨基酸通过肽键组成的线性链,却能折叠成极其复杂的三维结构,其具体的结构取决于氨基酸序列和它们之间的物理相互作用。而这种结构又决定了蛋白质的生物学功能。
尽管人类已经研究了几十年蛋白质,发明了很多探测手段,但是真正能准确测量出结构的蛋白质只有很小一部分,已经的几百万种蛋白质中,我们只知道其中几万个的结构,研究每个结构都需要花费数万美元。
过去我们需要知道蛋白质的结构才能研究它的功能,MIT希望利用这项技术让预测蛋白质结构的研究边缘化,即使只知道氨基酸序列也能给出蛋白质的功能。
所幸的是,知道蛋白质的氨基酸序列是一件相对比较容易的事情,我们只要给DNA分子测序就能得到。
掌握了蛋白质的功能,我们就能知道它会和药物发生怎样的反应,帮助我们进行药物研发。
此外,某些基因突变会改变蛋白质的结构,这项工作还可以用于基因组学,来检测破坏蛋白质结构的有害突变。
论文地址:
https://arxiv.org/abs/1902.08661
开源代码与数据集:
https://github.com/tbepler/protein-sequence-embedding-iclr2019
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态