爱这个项目!!恭喜 @samuelhking、@pdhsu 和 @arcinstitute 团队!
我想说两句:
将 AI 用于生物设计最好被视为一种翻译器。让我们用英语表达,然后将其翻译成 DNA,反之亦然。我们不知道如何用零件设计一个噬菌体,但 Evo 1/2 是通过“阅读”来自自然的超过 200 万个噬菌体基因组进行训练的,因此它学会了“说”噬菌体 DNA。因此,我们可以要求它生成一个——就像你可以要求 ChatGPT 为你生成一首中文诗,即使你自己不会说中文。
我们已经在蛋白质语言上训练了 AI 模型,如 Alphafold 和 ESM,这效果很好——这篇论文表明我们可以在更高的复杂性水平上做到这一点。这个 AI 模型能够处理多基因噬菌体基因组,而不仅仅是单个基因。非常令人兴奋的展示,这项工作通过实际制造和测试设计的噬菌体来很好地证明了这一点。它们有效!
在我看来,有两个明显的未来方向,最终会取得成功:
(1)该模型应该根据它对设计的噬菌体的学习进行重新训练,以便它能够更好地理解人类的请求并将其翻译成 DNA。这种“强化学习”类似于谷歌教 AI 模型下棋的方式——你让模型玩一局游戏,然后告诉它是赢了还是输了。在这里,你会让模型设计数百万个噬菌体,在实验室中构建它们,然后告诉它不同设计的表现。
(2)我们应该看看在数百万个细菌基因组上训练的模型是否能让我们构建一个 AI 设计的完整细菌细胞,类似于这里为噬菌体所做的。这将检验我们是否能够将一个英语请求翻译成一本 DNA 书(最简单的细菌需要 500,000 个 DNA 字母),而不是噬菌体的 DNA 诗(噬菌体中有 5,000 个 DNA 字母)。
这将是一个国家级的科学里程碑,因为细胞是所有生命的基本构件,美国应该确保我们首先实现这一目标。
为了做到(1)和(2),我们需要在进行实际湿实验生物学以构建 DNA 和测试生物体性能的效率上有显著改善。值得注意的是,他们只构建了 302 个噬菌体设计并测试了 16 个设计——这是因为湿实验工作太慢且昂贵。解决这个问题的办法是实验室自动化——我很高兴看到 NSF 投资 1 亿美元用于 AI 可控的自动化云实验室和其他将使美国科学基础设施更高效和工业化的努力。白宫的 AI 行动计划也提到了对这些“云启用实验室”的需求。
再次,太棒的工作了!!!