语言|NLP≠NLU,机器学习无法理解人类语言( 二 )
- 通过语言交流激活感觉模型,并以此承载记忆,从而可以应对人类之间交流时的文本缺失现象,实现“默契”(正确)的解码;
- 理解语言的上下文相关含义,并从单词和句子的歧义中找到合适的理解,以及从感觉世界中寻找更强的约束和限制;
- 向它们的人类合作者解释它们的想法、行动和决策;
总之,机器要理解自然语言,感觉经验是必不可少的。这与 Jürgen Schmidhuber在虚拟的游戏环境中设计的智能体是类似的逻辑,研究人员不会让智能体学习局限于单一的决策输出,而是逐步通过与虚拟世界互动,首先建立对虚拟世界的表征模型,再基于表征模型去进行决策。正如 McShane 和 Nirenburg 在他们的书中指出的那样,“ 语言理解不能与整体的认知过程区分开来,启发机器人理解语言也要运用其他感知(例如视觉、触觉)。”正如在现实世界中,人类也是利用他们丰富的体态动作来填补语言表达的空白。
NLP 中广泛使用数据驱动的经验方法有以下原因:符号和逻辑方法未能产生可扩展的 NLP 系统,导致 NLP (EMNLP,此指数据驱动、基于语料库的短语,统计和机器学习方法)中所谓的经验方法的兴起。
文章插图
正如EMNLP的先驱之一肯尼思·丘奇(Kenneth Church)所解释的,NLP数据驱动和统计方法的拥护者对解决简单的语言任务感兴趣,其动机从来不是暗示语言就是这样运作的,而是"做简单的事情总比什么都不做好"。
丘奇认为,这种转变的动机被严重误解,他们以为这个“可能大致正确的”(Probably Approximately Correct ,PAC)范式将扩展到完全自然的语言理解。
文章插图
“新一代和当代的NLP研究人员在语言学和NLP的理解上有差别,因此,这种被误导的趋势导致了一种不幸的状况:坚持使用"大语言模型"(LLM)构建NLP系统,这需要巨大的计算能力,并试图通过记住海量数据来接近自然语言。
这几乎是徒劳的尝试。我们认为,这种伪科学方法不仅浪费时间和资源,而且引诱新一代年轻科学家认为语言只是数据。更糟糕的是,这种方法会阻碍自然语言理解(NLU)的任何真正进展。
相反,现在是重新思考 NLU 方法的时候了。因为我们确信,对 NLU 的"大数据"方法不仅在心理上、认知上甚至计算上都是难以操作的,而且这种盲目的数据驱动 NLU 方法在理论和技术上也有缺陷。
- c语言|e观沧海丨算法焉能藏“算计”
- 电子商务|如何新建c语言项目
- 算法|可以跳过 Objective-C 然后直接学习 Swift 语言吗?
- 《幽灵线:东京》中国台湾评级15+ 含暴力、不当语言
- 双十一|如何新建c语言项目
- AMD|Python语言命令行参数解析接收参数执行脚本的三种方法
- 当当网|Python语言命令行参数解析接收参数执行脚本的三种方法
- 语言识别|AI技术,让我们“听”懂聋人
- 编程|华为发布仓颉编程语言,打破国外编程霸权,让中国人用汉字编程
- c语言|C语言-浅谈include命令