5G|陈根：ChatGPT的火爆之下，NLP技术路向何方？（原创）( 二 ) 运营商|中国联通|中国电信|5

简单来理解， OpenAI在2020年发布的GPT-3 ，让计算机第一次拥有了惟妙惟肖模仿人类“说话”的能力，不过，当时的AI虽然啥都会说，但也啥都不顾忌，以至于观点和逻辑常常出现错误和混乱。而OpenAI引入了人类监督员，专门“教”AI如何更好地回答人类问题。 AI的回答符合人类评价标准时，就给AI打高分，否则就给AI打低分。这使得AI能够按照人类价值观优化数据和参数。

不是根本性的突破
虽然ChatGPT模型比GPT-3模型的性能又提高了一个层次，但实际上， ChatGPT和GPT-3都还不是根本性的突破。
ChatGPT和GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果，而不是真正的聪明。不管是过去的GPT-3还是现在的ChatGPT ，仍然会犯一些可笑的错误，这也是这一类方法难以避免的弊端，因为它本质上只是通过概率最大化不断生成数据而已，而不是通过逻辑推理来生成回复。
虽然这种编造和杜撰在有些领域可能是非常有用的，很多游戏开发者、科幻作者、美术工作者就经常用AI来启发自己的思路，但这在需要准确回答具体问题的应用场景来说是致命伤。
我们可以想象下，一台内容创作成本接近于零，正确度80%左右，对非专业人士的迷惑程度接近100%的巨型机器，用超过人类作者千百万倍的产出速度接管所有百科全书编撰，回答所有知乎问题，这对人们认知的危害将是巨大的。
为此， ChatGPT也遭到了不同机构的封禁。前段时间就有Stack Overflow封禁ChatGPT的消息满天飞，原因很简单，官方表示暂时封禁ChatGPT是因为它生成的答案正确率太低，发布由ChatGPT创建的答案对网站和查询正确答案的用户来说是非常有害的。
此外，顶级人工智能会议也开始禁止使用ChatGPT和AI工具撰写的学术论文。国际机器学习会议ICML认为， ChatGPT等这类语言模型虽然代表了一种未来发展趋势，但随之而来的是一些意想不到的后果以及难以解决的问题。 ICML表示， ChatGPT接受公共数据的训练，这些数据通常是在未经同意的情况下收集的，出了问题难以找到负责的对象。
人们似乎对智能的标准很低。如果某样东西看起来很聪明，我们就很容易自欺欺人地认为它是聪明的。事实是，人工智能最厉害的伎俩就是让世界相信它是存在的。 ChatGPT和GPT-3在这方面是一个巨大的飞跃，但它们仍然是人类制造出来的工具。
不仅如此， ChatGPT还面临着人工智能的传统弊病，那就是“算法黑箱” 。在人工智能深度学习输入的数据和其输出的答案之间，存在着人们无法洞悉的“隐层” ，它被称为“黑箱” 。这里的“黑箱”并不只意味着不能观察，还意味着即使计算机试图向人们解释，人们也无法理解。
也就是说，人们无法根据输入数据准确预测“黑盒子”的输出结果，也无法精密控制“黑盒子”工作时的行为边界，这使得无论是程序错误，还是算法歧视，在ChatGPT的工作中，都变得难以识别。
此外， ChatGPT大模型如果应用肯定能取得比小模型更好的表现，但随之而来的是模型推理而带来的巨大算力成本。毕竟， ChatGPT想要走向市场，不能忽略的一个问题就是ChatGPT的经济性。一直以来，训练阶段的沉没成本过高，就导致人工智能应用早期很难从商业角度量化价值。随着算力的不断提高、场景的增多、翻倍的成本和能耗，人工智能的经济性将成为横梗在所有公司面前的问题。

NLP技术路向何方？
在过去的十年里，通过使用简单的人工神经网络计算，基于以GPU、TPU为代表的强大算力资源，并在巨量的数据上进行训练，自然语言处理（NLP）取得了令世人瞩目的成就和突破。由此产生的预训练语言模型，比如GPT-3和ChatGPT ，提供了一个强大的通用语言理解和生成基础，将自然语言处理技术发展推向了新的高度，使自然语言处理技术在某些领域达到甚至超越了人类水平，它们可以很容易地迁移到许多语义理解、智能写作任务当中。