研究人员|让科学变得简单:什么是机器学习? 场馆|北京冬奥会|李久林|智慧

文章插图
【研究人员|让科学变得简单:什么是机器学习?】机器学习是使用计算机检测海量数据集中的模式，然后根据计算机从这些模式中学到的东西进行预测的过程。这使得机器学习成为一种特定而狭隘的人工智能。完整的人工智能涉及能够执行我们与人类和智能动物的思想相关的能力的机器，例如感知、学习和解决问题的能力。

所有机器学习都基于算法。一般来说，算法是计算机用来解决问题的特定指令集。在机器学习中，算法是关于如何使用统计分析数据的规则。机器学习系统使用这些规则来识别数据输入和期望输出(通常是预测)之间的关系。首先，科学家们为机器学习系统提供了一组训练数据。这些系统将他们的算法应用于这些数据，以训练自己如何分析他们将来收到的类似输入。

文章插图
机器学习可以快速分析复杂现象，例如模拟冰晶。机器学习结合了形状分类、图像处理和统计分析来识别和表征冰粒。信用:图片由阿贡国家实验室提供

机器学习显示出巨大前景的一个领域是在计算机断层扫描 (CT) 成像中检测癌症。首先，研究人员收集尽可能多的 CT 图像作为训练数据。其中一些图像显示具有癌细胞的组织，一些显示健康组织。研究人员还收集有关在图像中寻找什么来识别癌症的信息。例如，这可能包括癌性肿瘤的边界是什么样的。接下来，他们针对图像中的数据与医生对识别癌症的了解之间的关系制定规则。然后他们将这些规则和训练数据提供给机器学习系统。该系统使用规则和训练数据自学如何识别癌组织。最后，系统获得新患者的 CT 图像。运用所学，系统决定哪些图像显示癌症迹象，速度比任何人都快。医生可以使用系统的预测来帮助决定患者是否患有癌症以及如何治疗。

训练数据的设置方式将机器学习系统分为两大类:有监督的和无监督的。如果训练数据被标记，则系统受到监督。标记数据告诉系统数据是什么。例如，可以标记 CT 图像以指示健康组织旁边的癌性病变或肿瘤。基本上，这意味着机器学习系统通过示例进行学习。对于训练数据集所需的大量数据，标记数据可能非常耗时。

如果未标记训练数据，则机器学习系统是无监督的。在癌症扫描示例中，无监督机器学习系统将获得大量 CT 扫描和有关肿瘤类型的信息，然后自学如何识别癌症。这使人类无需标记训练过程中使用的数据。无监督学习的缺点是由于缺乏明确的标签，结果可能不那么准确。

一些机器学习系统可以根据收到的预测反馈来提高他们的能力。这些被称为强化机器学习系统。例如，可以告知系统医生对患者是否患有癌症的其他测试结果。然后系统可以调整其算法以在未来产生更准确的预测。

速览
美国能源部最新的超级计算机--橡树岭国家实验室的峰会--具有特别适合人工智能应用的架构。
机器学习使科学家能够分析以前无法访问的大量数据。
美国能源部资助的研究人员使用机器学习来开发新的癌症筛查，更好地了解水的特性，并自主引导实验。
物理信息机器学习使用深度神经网络，可以训练这些网络以结合特定的物理定律来解决监督学习任务和科学问题。
机器学习算法不是灵丹妙药。机器学习系统的开发容易受到人为错误和偏见的影响，并且需要与软件工程一样精心设计。

美国能源部科学办公室:对机器学习的贡献