数据稀缺?生成式AI正在学习如何创造自己

“人类一直在努力制造真正智能的机器 , 也许我们需要让他们自己动手 。 ”《麻省理工评论》的《AI正在学习如何创造自己》文章中写道 。
数据稀缺?生成式AI正在学习如何创造自己
文章图片
“GenerativeAI”(生成式AI)是人工智能领域近期的热议话题 , 《福布斯》3月23日发文《探索生成式AI在各个领域的大量用例》 , Gartner在总结2022年最有影响力的5项技术时列入GenerativeAI , VentureBeat则在3月20日更为直接指出《深度生成模型可以为人工智能提供最有希望的前景》 。
所以GenerativeAI(以下用“生成式AI”)是什么 , 为什么被赋予这样高的期待?
在回答“是什么”的问题前 , 可以先理解生成式AI算法希望解决的核心问题:有效数据的稀缺性 , 以及采样偏差 , 这些也是机器学习发展的关键瓶颈所在 。
生成式AI的突破在于 , 其可以从现有数据(图像、音频文件、文本)中生成相似的原始数据 , 如经常产生各种负面用例的Deepfake也属于生成式AI 。
数据稀缺?生成式AI正在学习如何创造自己
文章图片
“生成模型可能是我们目前最强大的工具 , 可以利用科学中的大量数据 , 并用它来提出设计和发现新材料、药物等的起点 。 ”IBMResearch的研究人员MatteoManica在采访中说道 , “我们可以创建生成模型来帮助回答我们也不知道从哪里开始的问题 , 如如何为未知蛋白质寻找新的抗病毒药物 , 或者我们是否可以制造大气中二氧化碳的催化剂 。 ”
生成式AI有几种模型 , 最流行的是可以无监督学习的生成对抗网络(GAN) , 两个神经网络互相竞争 , 一个做“生成器”——尽可能逼真地生成与输入数据相似的人工数据 , 一个做“鉴别器”——不断尝试区分真实数据和原始数据 。 每次测试后 , 生成器都会调整参数以创建更有说服力的数据 , 直到不停迭代后鉴别器无法区分真假 。
因此 , GAN可以创造出具有原作风格的可信新作品 , 而不是一幅画的复印版 。 由麻省理工学院(MIT)发起的“认识动物”项目创建了混合动物的逼真图像 , 展示了这种从头开始创建新数据(称为“合成数据”)的能力 。 机器学习算法的性能通常与数据量相关 。 在数据稀缺的某些情况下 , 使用合成数据可以增加训练集中的数据量(称为数据增强)或改变它 。
数据稀缺?生成式AI正在学习如何创造自己
文章图片
VentureBeat提到的“深度生成模型”(DeepGenerativeModels)即除了作为生成模型之外 , 它们还利用了深度神经网络 。 神经网络是一种计算架构 , 它能够随着时间的推移学习新模式——使神经网络“深入”的是模型输入和输出之间多个隐藏“层”推理带来的复杂度提高 , 使深度神经网络能够处理具有许多变量的极其复杂的数据集 。
如蛋白质折叠问题——氨基酸残基形成的长链将会折叠成错综复杂的3D结构 。 错误折叠的蛋白质有可能引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生 , 我们需要发现蛋白质的3D结构 , 找出哪些药物和化合物与各种类型的人体组织相互作用 , 以及如何相互作用 , 这对于药物发现和医学创新至关重要 。
数据稀缺?生成式AI正在学习如何创造自己
文章图片
但发现蛋白质如何折叠是一个非常困难的问题 , 科学家需要在分析蛋白质之前溶解和结晶 , 单个蛋白质的整个过程可能持续数周或数月 。 传统的深度学习模型也不足以帮助解决蛋白质折叠问题 , 因为它们的重点主要是对现有数据集进行分类 , 而不能生成数据输出 。