通过简单地将"亚历山大大帝的导师"替换为与其相等的值,即亚里士多德,我们得到了(2),这显然是荒谬的。同样,虽然"亚历山大大帝的导师"和"亚里士多德"在某种意义上是平等的(它们都具有相同的价值作为指称),这两个思想对象在许多其他属性上是不同的。那么,这个关于"内涵"的讨论有什么意义呢?自然语言充斥着内涵现象,因为语言具有不可忽视的内涵。但是机器学习/数据驱动方法的所有变体都纯粹是延伸的——它们以物体的数字(矢量/紧张)表示来运作,而不是它们的象征性和结构特性,因此在这个范式中,我们不能用自然语言来模拟各种内涵。顺便说一句,神经网络纯粹是延伸的,因此不能表示内涵,这是它们总是容易受到对抗性攻击的真正原因,尽管这个问题超出了本文的范围。【 语言|NLP≠NLU,机器学习无法理解人类语言】
结束语
我在本文中讨论了三个原因,证明机器学习和数据驱动方法甚至与 NLU 无关(尽管这些方法可用于某些本质上是压缩任务的文本处理任务)。以上三个理由本身都足以结束这场夸张的自然语言理解的数字工程。人类在传达自己的想法时,其实是在传递高度压缩的语言表达,需要用大脑来解释和"揭示"所有缺失但隐含假设的背景信息。语言是承载思想的人工制品,因此,在构建越来越大的语言模型时,机器学习和数据驱动方法试图在尝试找到数据中甚至不存在的东西时,徒劳地追逐无穷大。https://thegradient.pub/machine-learning-wont-solve-the-natural-language-understanding-challenge/
文章插图
雷锋网雷锋网雷锋网