下一种“肆虐”人类的动物病毒是什么?AI预测出18种“高潜力”病毒( 二 )


他们首先评估了与人类感染病毒的亲缘关系是否会提高人畜共患病的可能性 。 梯度增强机器(GBM)分类器 , 可根据序列相似性搜索确定的病毒分类学或近亲属中人类感染病毒的频率进行训练 。
下一种“肆虐”人类的动物病毒是什么?AI预测出18种“高潜力”病毒
文章图片
从病毒基因组中机器学习预测人类传染性|PLOSBiology
接下来 , 研究人员量化了根据基因组组成(即密码子使用偏差、氨基酸偏差和二核苷酸偏差)进行训练的GBMs性能 , 直接从病毒基因组(“病毒基因组特征”)或基于病毒基因组组成的相似性计算不同的人类基因转录本(“人类相似性特征”):干扰素诱导基因产物(ISG)、管家基因和所有其他基因 。
此外 , 为了评估模型的敏感性和特异性 , 研究人员将来自袋装模型的人类感染预测概率的平均值转换为二元分类(即 , 人类感染与否) , 将预测概率>0.293的病毒预测为人类感染 。 这些二元预测正确地确定了71.9%的主要或完全感染人类的病毒 , 以及69.7%的人畜共患病毒为人类感染 , 尽管病毒家族之间的表现各不相同 。
由于二元分类忽略了迭代之间的变异性和病毒相对于彼此的等级 , 研究人员又进一步将预测的人畜共患病概率转换为潜在的人畜共患病类别 , 根据该方案 , 预计大多数(92%)已知的人类感染病毒具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潜力 , 而只有8%具有低人畜共患病潜力 。
下一种“肆虐”人类的动物病毒是什么?AI预测出18种“高潜力”病毒
文章图片
在训练数据中确定的推定未识别的人畜共患病|PLOSBiology
基于论文中模型的分析 , 目前共有18种病毒被认为具有非常高的人畜共患潜力 , 其中至少有3种(Auravirus,Ndumuvirus,UgandaSvirus)具有人类感染的血清学证据 。 在整个数据集中 , 77.2%的预测具有非常高的人畜共患病潜力的病毒已知会感染人类 。
值得关注的是 , 论文中提出的模型可以通过重建分类学 , 比系统发育邻域估计器更准确地进行预测 , 或者比基于分类学的模型更详细地进行预测 。
下一种“肆虐”人类的动物病毒是什么?AI预测出18种“高潜力”病毒
文章图片
人类感染病毒的基因组决定因素|PLOSBiology
尽管论文提出的模型分析并非旨在最终确定人类感染基因组预测因子的生物学机制 , 但仍然能够探索特定基因组组成特征、以及特征组如何与人类传染性相关的新兴模式 , 研究人员进一步详细地探讨了单个特征对模型预测的影响 。
最后 , 研究人员利用两个案例研究说明了该预测框架的实用性 。
首先 , 研究人员使用基于基因组特征的组合模型对训练数据中不存在的758种病毒进行了排名 , 共有70.8%从人类采样的病毒被正确识别为具有非常高或高人畜共患病潜力 , 其余的人类相关病毒主要被归类为中等人畜共患病潜力 , 其中3个物种预测具有低人畜共患病潜力 。
在从非人类动物或潜在载体样本测序的645种人类感染性未知的病毒中 , 45.0%被预测具有非常高或高人畜共患病潜力 , 非常高的人畜共患病潜力类别以Papillomaviridae(34.1%)和Peribunyaviridae(19.5%)为主 。
下一种“肆虐”人类的动物病毒是什么?AI预测出18种“高潜力”病毒
文章图片
从病毒基因组预测的人类感染概率|PLOSBiology
此外 , 研究人员使用beta回归模型来探索人畜共患病潜力的预测如何在宿主和病毒组之间变化 。
分析发现 , 从人类样本中测序的113种病毒物种的得分始终高于在其他宿主中检测到的那些 。 尽管来自蝙蝠、啮齿动物和偶蹄动物等被认为是高危宿主的病毒构成了保留数据的很大一部分(来自蝙蝠的病毒甚至超过了来自人类的病毒) , 但它们并没有提高预测的人畜共患病概率 , 并且在较高的宿主分类水平上没有检测到差异 , 这凸显了当前用于病毒发现/报告的采样工作与人畜共患病风险分布之间的潜在差异 。