Google|18世纪就有GTA?词频统计器里的另一部“近现代史”( 四 )



1908年《英华大辞典》中对anime一词的解释
Shabi一词在19世纪出现几率很高 , 是因为英国的殖民统治达到鼎盛 , 进而与东方文明产生了空前的交流 。 Shabi常出现在与中国、印度、阿拉伯文化相关的英文著作中 , 指代的意思各不相同 , 放到中国是“沙弼” , 即沙弥、小和尚一词的音译;放到阿拉伯语里就变成了惯用的人名 。


3
虽然我们使用统计器的方法有时不太科学 , 但谷歌的工具也绝非完美无瑕 。 事实上 , 早在谷歌图书词频统计器诞生伊始的2010年 , 就已经有学者吐槽过某些21世纪特有名词在语料库中的“穿越”现象 。

网友们颇有微词时会把微词变成梗 , 而学者们的微词会变成学术研究与学术论文 。 近几年来的研究调查证明 , 谷歌的数据也没那么权威 , 其统计器与语料库存在的问题可不少 。
最致命的问题是文本扫描错误 。 将图书扫描成电子文本所使用的光学字符识别技术 , 简称OCR , 其可靠程度会根据图书的印刷质量产生浮动 , 在读取百余年前的文本时总是会出错 。
以前的英文著作经常把字母s写作作形近于字母f的“长s” , 直至18-19世纪印刷技术取得长足进步 , “长s”才渐渐消亡 。 谷歌的OCR一度识别不出“长s” , 导致许多带有s与f字母的单词之间产生可怕的混淆 , 直至2019年谷歌语料库更新 , 这一错误才得以大幅修正 。

诗集《失乐园》(Paradise lost)的标题页 , 小写的字母s基本都印作“长s”
但有些相比之下并不明显的错误至今依然存在 。 就以网友们玩梗提出的那些关键词为例 , 把谷歌图书的搜索结果搬来和统计器作下对比 , 便会明白OCR偶尔会错到十分离谱的地步 。
19世纪及以前的英文印刷品经常出现每行或每页末尾写不下完整单词的情况 , 印刷商会在没写完的单词后接上一根横杠“-” , 让读者去下一行或下一页找到单词的后半部分 。 正是这个“-” , 会被OCR识别成字母 , 像是“pub-” , 就会出现在《绝地求生》缩写“pubg”的搜索结果中 。


一些形近意思却完全不同的单词或词组 , 对于OCR而言亦是灾难 。 如“Infernet” , 这个法国人的姓氏经常被错认为“Internet”(互联网);“fortune”(幸运)或是“for these”(为了这些) , 更是会被阴差阳错地识别成《堡垒之夜》的英文名“fortnite” 。

谷歌扫描图书时 , 需要填充图书的标题、出版日期、作者、页数等元数据 。 这一过程与OCR类似 , 都由程序自动进行 , 因此也有漏洞 。
文章开头视频中的GTA , 即“grand theft auto” , 在美国对应一种盗窃机动车的罪名 。 在谷歌图书搜索“grand theft auto” , 并把搜索时间限定至18世纪的话 , 我们会查到一部实际在1981年出版、文中多次提到GTA的美国加利福尼亚州议会法案 , 它的出版日期被谷歌错标成了“1771年” 。


单是这一本书的标注错误 , 就贡献了一条篡改历史的趋势曲线和一部让数百万人忍俊不禁的玩梗视频 。 如今各个视频网站类似的视频数以千计 , 而语料库中OCR与元数据出错的文献 , 恐怕还不止这个数量 。
当然 , 任何科学测量工具都不可能做到百分百完美 , 数据与算法也不例外 。 能够在短短数秒之内完成定量分析 , 得出某种事物在数百年中的大致发展动向 , 正是谷歌图书词频统计器的价值所在 。
不过 , 在这个语料库不知何时才有的下一次更新之前 , 这些谬误将一直作为网友们造梗的源泉而存在 , 这大概是开发者所没有想到的了 。
【Google|18世纪就有GTA?词频统计器里的另一部“近现代史”】