我们和计算生物学从业者深度聊了聊|对撞派 · 圆桌实录( 五 )


此外,如果我们换个视角来看待这个问题,蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对来说定义得比较清晰(well-defined)的问题。还有很多比蛋白质结构预测更加复杂也更有挑战性的问题,等着我们用人工智能的手段去推进。
Q2:我们认为应该如何去定义计算生物学这一个学科,它里面又会有哪些细分的领域和维度呢?
A2:从研究对象的角度,有宏观的,也有微观的。从微观的角度,可以小到一个蛋白、DNA 或者是一个单细胞。从宏观的角度,可以大到人类或者说生物体的组织、器官、个体甚至是群体。
从研究手段来讲,既有传统的生物实验,也有包括计算手段在内的数学建模、数值仿真、数据分析或者是机器学习。
从应用门类来讲,几乎和我们平时生活或者科学发展的方方面面都有关系,它既有在基础科学方面的潜力,也在制药诊疗方面有着巨大价值。
Q3:2021 年,微软亚洲研究院首次针对新冠病毒中的 NTD 提出了对应的楔型模型,并鉴定了潜在的药物靶点。能否介绍一下这项工作是怎么基于计算生物学完成的呢?
A3: 之前科学家们发现,新冠感染人体的物质叫 S 蛋白。我们可以把它想象成一个英文字母 Y,有两个枝杈,还有一个中轴。S蛋白的中轴会固定在病毒的表面,而伸出的这两个枝杈(RBD和NTD),其中的RBD会和我们的受体蛋白发生识别,然后进入人体。
我们的研究主要围绕着机理还未明确的NTD展开。我们和清华大学计算生物学的老师通力合作,利用分子动力学模拟技术对整个S 蛋白,全构象是百万级原子的巨大体系,进行了数十亿步的动力学平衡模拟。通过分子动力学,我们发现NTD就像一个开关,可以去控制另一个枝杈RBD是否能和人体的蛋白发生识别、结合。而NTD和RBD两者结合的界面,就自然形成了药物和疫苗设计的一个潜在靶点。
Q4:计算生物学算是一门交叉性非常强的学科,一方面是生物知识和人工智能的交叉,也就是所谓的 BT+IT。另一方面,也是干实验和湿实验的一种交叉。那请问几位老师是如何看待这两种强的交叉关系的?
A4: 计算生物学是一个非常典型的交叉学科。这个交叉二字其实有几个不同的层次。
首先是知识层面上,有生物学、医学、药学、计算机科学,包括人工智能这些不同的知识门类的交叉。
还有一个研究方法的交叉,比如说传统生物学的生物实验,就是“湿实验”。计算机的模拟或者人工智能的手段,我们通常称为“干实验”。
更重要的其实是人才的交叉。因为在这个过程中会涉及到计算机的人才、生物学的人才。而最有趣的是,每个人其实都是有自己的个性的,甚至是有一些偏见的。当我们面对着一个新的课题或者一个新的事物的时候,通常会带入我们固有的一些思维。所以想要让交叉学科发展得非常好,我们就需要一个开放、包容、多元化的环境,让不同的知识做交融,让不同类型的人才去做碰撞,让不同的研究手段去进行互补或者形成某种闭环。
Q5: 是否存在哪些明显的瓶颈?
A5:高质量数据。尽管过去我们在生物学领域积累了大量的数据,但是高质量的数据仍然十分短缺。
从技术上来说,在做计算生物学的过程中,我们还是碰到了非常多的挑战。比如说,真正的蛋白质其实是处在一个非常复杂的细胞环境中的,这种微环境使得计算机的建模难度非常大。比如说在NTD的分子动力模拟中,就需要考虑到这个蛋白在人体内真正的环境是什么样的?是不是处在一个水溶液的环境里?是不是会有一些离子?在计算生物学的研究中,我们也要尽量地去仿照人体中真实的微环境,这可能是一个比较大的挑战。