新冠病毒突变!AI算法告诉你哪些新冠病毒变种最具威胁性
新智元报道
来源:外国媒体
编辑:LQ
最近,麻省理工学院的研究人员在杂志《科学》上发表了一篇论文《学习病毒演变和逃逸的语言》,该论文描述了研究人员正在使用一种机器学习算法来预测哪些突变菌株将对人类刚刚起步的免疫系统构成最大的威胁。
最近几周,来自英国、南非和加州的新型冠状病毒变体开始在世界各地传播。
虽然突变株的致死性不如其祖先,但它似乎更容易传播。至于突变菌株,许多专家公开表示,目前的疫苗对它仍然有效。
但是变异株会越来越多。未来会不会出现让疫苗失效的菌株?研究人员一直在做相关研究。
1月15日,《科学》杂志发表了一篇论文《学习病毒演变和逃逸的语言》(论文的链接附后),描述了麻省理工学院的研究人员正在使用一种机器学习算法来预测哪些突变株会对人类羽翼未丰的免疫系统造成最大的威胁。
该算法可用于快速缩小范围,以找到哪些突变最有可能“逃脱”接种疫苗或以前感染过的人的免疫系统。然后,研究人员可以在实验室测试可疑菌株,并相应地更新疫苗。
“这是疫苗开发的实时伴侣,我们模型的研究速度将比实验室快得多,”布莱恩布莱森说,他是这篇论文的作者之一,也是麻省理工学院的生物工程学家。
这个工具出现在新冠肺炎蔓延的关键时刻。现在各国都在逐渐开始接种疫苗,但是接种的数量还是很少。例如,在美国,只有超过3%的美国人接种过疫苗。
病毒逃逸
疫苗用于训练我们的免疫系统识别特定的冠状病毒株。然而,病毒变异越多,接种过疫苗的人和以前感染过新毒株的人的免疫力就越差。
这个过程叫做“病毒逃逸”。冠状病毒的变异和逃逸将使疫苗制造商在高风险的追赶游戏中争相更新疫苗。
布莱恩布莱森(Bryan Bryson)和他的同事们认为,这种算法可以帮助疫苗制造商跟上病毒的进化,并减少目前用于监控这种突变的人力和物力。
该论文的另一位作者、麻省理工学院的计算机科学家邦妮伯杰(Bonnie Berger)说,“这个工具可以告诉你什么时候进行调查。随着新菌株的出现,我们可以标记出哪些菌株有可能逃逸,也就确定了下一步的研究对象。」
一些AI的研究工具在新冠疫苗开发初期很有帮助。例如,人工智能帮助研究人员识别哪些病毒遗传密码片段最有可能发生变化,以及某些突变如何影响其物理结构。
麻省理工学院的新机器学习算法通过将人工智能应用于病毒逃脱,扩展了人工智能的技能。
该模型最初用于机器语言理解
开发该小组的模型最初是为机器语言理解而开发的。该算法用于查找语法(句法)和意义(语义)。利用同样的两个原则,研究人员创造性地调整了它,用来监测病毒遗传密码的变化。
研究人员将这一过程称为「约束语义变化搜索」(constrained semantic change search,CSCS)。随着该模型对冠状病毒基因组的了解,它开始了解冠状病毒基因组的重大变化表现为何。
由此,它产生了一个可疑毒株的名单,用来在实验室中进行测试。
为了测试这些毒株,研究人员将首先产生一种带有可疑突变的假病毒,并经过了计算模型的鉴定。然后,他们将这种假病毒接受从接种过疫苗或感染过新冠的人身上收集的抗体。
如果这些抗体不能中和这种病毒,这表明这种新毒株能够逃避免疫系统的攻击,因此需要更新疫苗。
然后再回到算法上,寻找更多可疑的变异毒株。Bryson说,「这就像是计算机和实验室之间的一个循环,你要做的就是来回走动,试图实时了解这场流行病。」
新冠研究领域的「登月计划」
研究人员训练模型只用了将近1000个 SARS-CoV-2刺突蛋白的基因序列,加上3000个其他(比如导致普通感冒的)冠状病毒的刺突蛋白的基因序列。
刺突蛋白是新冠病毒用来与受体结合的主要表面蛋白,当刺突蛋白与人类细胞受体结合后,病毒膜与人类细胞膜融合,使得病毒基因组得以进入人类细胞并开始感染。
这些例子教模型冠状病毒中氨基酸测序的规则。
「关于语言模型的好处是,它们可以直接从一个大型训练集中学习规则, 这就是为什么我们想在生物学环境中使用这个模型,因为我们不知道哪些氨基酸可以组合在一起。」该团队的博士生、论文的合著者 Brian Hie说。
作为一项实验,麻省理工学院的研究人员将一些新的变种植入他们的算法中,发现英国和南非的菌株在逃逸概率方面都得了「相当高」的分数。
然而,它们的分数并没有在实验室实验中产生的逃逸突变体那么高,Berger说。
预测什么时候一个高分会转化成真正的逃离人类免疫系统的能力超出了该模型的能力,Hie说。
Hie表示,从长远来看,他希望继续使用这个模型来预测尚未出现的病毒变异。
他说: 「这是该研究领域的「登月计划」: 接种疫苗预防未来的病毒变体。」
参考链接:
