语言|NLP≠NLU,机器学习无法理解人类语言( 五 )

人们可以争辩说,有了足够的例子,一个系统可以确立统计学意义。但是,需要多少个示例来"学习"如何解决结构中的引用(如 (1)中的引用)?
在机器学习/数据驱动的方法中,没有类型层次结构,我们可以对"包"、"手提箱"、"公文包"等进行概括性陈述,所有这些声明都被视为通用类型"容器"的子类型。因此,以上每个模式,在纯数据驱动的范式中,都是不同的,必须在数据中分别"看到"。
如果我们在语义差异中加入上述模式的所有小语法差异(例如将"因为"更改为"虽然",这也更改了"它"的正确引用),那么粗略计算告诉我们,机器学习/数据驱动系统需要看到上述 40000000 个变体,以学习如何解决句子中的引用。如果有的话,这在计算上是不可信的。正如Fodor和Pylyshyn曾经引用著名的认知科学家乔治.米勒( George Miller),为了捕捉 NLU 系统所需的所有句法和语义变化,神经网络可能需要的特征数量超过宇宙中的原子数量!这里的寓意是:统计无法捕捉(甚至不能近似)语义。
3、ML 方法甚至与 NLU 无关:意图
逻辑学家们长期以来一直在研究一种语义概念,试图用语义三角形解释什么是"内涵"。
语言|NLP≠NLU,机器学习无法理解人类语言
文章插图
一个符号用来指代一个概念,概念可能有实际的对象作为实例,但有些概念没有实例,例如,神话中的独角兽只是一个概念,没有实际的实例独角兽。类似地,"被取消的旅行"是对实际未发生的事件的引用,或从未存在的事件等。
因此,每个"事物"(或认知的每一个对象)都有三个部分:一个符号,符号所指的概念以及概念具有的具体实例。我有时说,因为概念"独角兽"没有"实际"实例。概念本身是其所有潜在实例的理想化模板(因此它接近理想化形式柏拉图)
一个概念(通常由某个符号/标签所指)是由一组属性和属性定义,也许还有额外的公理和既定事实等。然而,概念与实际(不完美)实例不同,在数学世界中也是如此。因此,例如,虽然下面的算术表达式都有相同的扩展,但它们有不同的语气:
内涵决定外延,但外延本身并不能完全代表概念。上述对象仅在一个属性上相等,即它们的值在许多其他属性上是不同的。在语言中,平等和同一性不能混淆,如果对象在某些属性值中是平等的,则不能认为对象是相同的
语言|NLP≠NLU,机器学习无法理解人类语言
文章插图

因此,虽然所有的表达式评估相同,因此在某种意义上是相等的,但这只是它们的属性之一。事实上,上述表达式有几个其他属性,例如它们的语法结构、操作员数量、操作次数等。价值(这只是一个属性)称为外延,而所有属性的集合是内涵。虽然在应用科学(工程,经济学等),我们可以安全地认为它们相等仅属性,在认知中(尤其是在语言理解中),这种平等是失败的!下面是一个简单的示例:
假设(1)是真的,即假设(1)真的发生了,我们看到了/ 见证了它。不过,这并不意味着我们可以假设(2)是真的,尽管我们所做的只是将 (1) 中的 '1b' 替换为一个(假设)等于它的值。所以发生了什么事?
我们在真实陈述中用一个被认为与之相等的对象替换了一个对象,我们从真实的东西中推断出并非如此的东西!虽然在物理科学中,我们可以很容易地用一个属性来替换一个等于它的物体,但这在认知上是行不通的!下面是另一个可能与语言更相关的示例: