大数据|吴恩达:告别,大数据

大数据|吴恩达:告别,大数据
文章插图

编译丨维克多、王晔
吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里,他一直在提“以数据为中心的AI”,希望将大家的目光从以模型为中心转向以数据为中心。
最近,在接受IEEE Spectrum的采访中,他谈到了对基础模型、大数据、小数据以及数据工程的一些感悟,并给出了发起“以数据为中心的AI”运动的原因。
“过去十年,代码—神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。”
吴恩达表示,他这种以数据为中心的思想受到了很多的批评,就和当年他发起Google brain项目,支持构建大型神经网络行动,时候受到的批评时一样:想法不新鲜,方向错误。据吴教授介绍,批评者中不乏行业资深人士。
大数据|吴恩达:告别,大数据
文章插图

关于小数据,吴教授认为,它同样能够有威力:“只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。”
以下是采访原文,AI科技评论做了不改变原意的编译。
大数据|吴恩达:告别,大数据
文章插图

IEEE:过去十年,深度学习的成功来源于大数据和大模型,但有人认为这是一条不可持续的路径,您同意这个观点么?
吴恩达: 好问题。
我们已经在自然语言处理(NLP)领域看到了基础模型(foundation models)的威力。说实话,我对更大的NLP模型,以及在计算机视觉(CV)中构建基础模型感到兴奋。视频数据中有很多信息可以利用,但由于计算性能以及视频数据处理成本的限制,还无法建立相关的基础模型。
大数据与大模型作为深度学习引擎已经成功运行了15年,它仍然具有活力。话虽如此,但在某些场景下,我们也看到,大数据并不适用,“小数据”才是更好的解决方案。
IEEE:您提到的CV基础模型是什么意思?
吴恩达: 是指规模非常大,并在大数据上训练的模型,使用的时候可以为特定的应用进行微调。是我和斯坦福的朋友创建的术语,例如GPT-3就是NLP领域的基础模型。基础模型为开发机器学习应用提供了新的范式,有很大的前景,但同时也面临挑战:如何确保合理、公平、无偏?这些挑战随着越来越多的人在基础模型上构建应用,会越来越明显。
IEEE:为CV创建基础模型的契机在哪?
吴恩达:目前还是存在可扩展性难题。相比NLP,CV需要的计算能力更强大。如果能生产出比现在高10倍性能的处理器,就能够非常轻松建立包含10倍视频数据的基础视觉模型。目前,已经出现了在CV中开发基础模型的迹象。
说到这,我提一嘴:过去十年,深度学习的成功更多的发生在面向消费的公司,这些公司特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。
IEEE:您这么一说我想起来了,您早期是在一家面向消费者的公司,拥有数百万用户。
吴恩达:十年前,当我发起 Google Brain 项目,并使用 Google的计算基础设施构建“大”神经网络的时候,引起了很多争议。当时有位行业资深人士,“悄悄”告诉我:启动Google Brain 项目不利于我的职业生涯,我不应该只关注大规模,而应该专注于架构创新。
到现在我还记着,我和我的学生发表的第一篇NeurIPSworkshop论文,提倡使用CUDA。但另一位行业资深人劝我:CUDA 编程太复杂了,将它作为一种编程范式,工作量太大了。我想办法说服他,但我失败了。