我们和计算生物学从业者深度聊了聊|对撞派 · 圆桌实录( 四 )


另一种问题就是很难定义为一个物理问题。也就是所谓数据驱动的。
这两种范式上发展出来算法也很不一样。
Q5:我们认为哪些场景是计算生物学能够最快落地,或者发挥最大潜能的?
A5:我觉得可能的突破口还是会从两个地方出现。
一个是理解生命体运作的机制。我们无论是做药物还是做疗法、做任何的东西,第一个前提就是我们要知道我们到底是怎么样运行的,疾病的产生与治愈是怎样的一个微观的过程。那第二,在充分理解生物体运作机制的前提下,我们就会确定一些药物的靶标和疾病之间的关系。那再往下其实就是药物的设计。之后,就是这些相应疗法在人体内作用的预测等相关的这件事情。
这部分的突破,我认为会比较快地出现在两个方向上:1. 能更明确地能定义为物理问题和化学问题的方向,比如蛋白质尺度的结构和药物计。2. 实验技术进步能够带来大量高质量标准化数据,且问题相对不是那么高维。也就是数据的积累会对算法产生非常大帮助的领域。
第二个方面就是逆向问题。我们在理解了生物体的运作机制之后,去反向生成。比如说像合成生物学,我们通过编程的方式去创造生命,那这是解反问题。
可能还有一个维度其实是计算生物学的解决方案和专家的关系。将原来专家的经验知识转化成了一个模型或者可执行的一个工具,更好地赋能下游的科学家和工作人员。
Q6: 那如果我们用百分比来衡量的话,今天比如说以Alphafold2 为一个代表,我们会觉得它大概到了一个怎么样的进度?
A6:我觉得遵循着一个指数发展的规律。当前的一系列技术的积累,其实是刚刚捅破了这层窗户纸,也可能是黎明前的黑暗到往上走的关键时期。所以说当下的这个点或许是还比较少的,甚至可能不一定到1%。
如果借鉴AI的图片识别和语音识别发展历程,我想它还是一个快速增长的时期。它的导数可能非常的大。
比如说以AlphaFold2的话,它分为两种层面,一种是已知的未知,比如说对人类的蛋白组的预测可能接近60%,都预测的相对比较靠谱。那剩下 40% 预测的不靠谱的部分,至少也能给出一个大致的置信区间。这意味着算法是初步可用了。
更大的其实是未知的未知。科学家们普遍都认为我们对可见宇宙或者已知宇宙的认知肯定是不超过 5% ,更何况还有很大的未知的宇宙。我觉得在蛋白质结构预测这个领域也是同样的。我们可见的包括这些预测不准的 40%, 主要是一些大蛋白、膜蛋白、蛋白复合物等等。就可见部分而言,我觉得可能只完成了 10% 到 20。我们其实并不知道分母有多大。
这是计算生物学领域大航海时代的开始,这个真正的竞争或者真正的突破才刚刚开始。整个的技术发展肯定是非线性的,出现了一个突破可能一下就提升了一大截,大家也可以密切地关注这个领域的进展,这里面也可能获得很多非线性的回报机会。
第三场:对谈微软亚洲研究院微软亚洲研究院是微软在美国本土以外规模最大的研究机构,世界一流的计算机基础及应用研究机构。致力于推动整个计算机科学领域的前沿技术发展,将最新研究成果快速转化到微软的关键产品中,着眼于下一代革命性技术的研究和孵化。
对谈嘉宾:
刘铁岩(左二):微软亚洲研究院副院长
邵 斌(右二):微软亚洲研究院首席研究员
王 童(右一):微软亚洲研究院主管研究员
我们和计算生物学从业者深度聊了聊|对撞派 · 圆桌实录
文章插图
Q1:AlphaFold2的最大意义是什么?
A1:这个看似突破性的进展,其实是技术演进的必然结果。