非同质|技术非中立,语言非同质:机器翻译正被用于维护文化障碍( 四 )


——Margaret Speas,《语言所有权和语言意识形态》
“语言不是像财产被盗那样的方式被盗。相反,人们被剥夺了塑造自己的文化和教育实践所必须的主权。”
——Kerim Friedman
最先进的神经系统机器翻译技术的训练和评估,逐渐依赖于人类翻译者产生的大量的平行语料数据,这种做法是由范式的信息理论根源所决定的。在翻译学者和文学评论家看来,韦弗将语言之间的翻译定性为仅仅是对编码信息的解密,可能显得很粗陋,其中的一些人对忠实翻译的可能性持保留态度(尤其是文学和诗歌,韦弗本人也承认了这一局限性)。
事实上,文本之间的“对等”概念在翻译研究中受到了激烈的争论。这并不是说机器翻译在认识论上讲是失败的;当代机器翻译范式的平行文本基础与奎因(Quine)的实用主义、行为主义的翻译方法相一致。无论人们是否认为这种框架有说服力,重要的是要认识到作为黄金标准翻译的数据体现了编写者的处境和主观立场,这影响了随后嵌入自动化系统的关联。
当代神经网络机器翻译的成功在很大程度依赖于大量的网络语言数据。有成千上万种所谓的“低资源”语言(以及广泛使用的语言中的小众化方言),对于这些语言,既不存在对行业巨头开发翻译工具的政治或财产激励,也没有成功应用神经机器翻译所需的大量数字化资源。在这方面,语言社区可能有空间选择性地决定是否—以及如果是的话,向谁—提交他们的知识和文化以供观察。
2005年,马普切人的领导人对微软公司提起诉讼,指责他们是“知识盗版”,因为这家软件公司试图用马普切人的语言Mapudungun发布Windows操作系统的版本,但最终没有成功。
微软没有与马普切人协商,也没有征得他们的同意使用他们的语言,而是与智利政府合作开发该资源,然而这起诉讼却让人感到出乎意料,技术使一个人是否能真正“拥有”一种语言的问题变得复杂化;在网上搜罗的一千句话的语料库是否足以为后续的处理和翻译提供足够的形态句法特征?如果一个语言社区不愿委托软件公司开发他们语言的工具,他们有什么办法?
非同质|技术非中立,语言非同质:机器翻译正被用于维护文化障碍
文章插图
Source
西方关于语言濒危的论述不加批判地将开发低资源语言的技术视为一种社会福利,事实上,“低资源”这种说法本身就隐含着考虑采集数据的优先顺序,而一种语言的使用者本身就有很多能力,如成语、笑话、寓言和口述历史。
另一方面,强制同化和殖民化导致无数土著语言的母语使用者数量锐减,毛利语和尤皮克语等语言记载和传承问题越来越成为人们关注的焦点。最近举办的第一届美洲土著语言NLP研讨会等活动也支持了这项工作。
Masakhane 项目采用参与式方法来解决数十种非洲语言的技术资源匮乏问题,提议由非洲人创造语言技术,这促使一些受影响的利益攸关方从项目一开始就参与指导研究方向和数据的收集整理工作。Masakhane 为没有经过正规方法培训的参与者创造了直接和有意义的参与方式,并代表着向使用翻译技术赋予非洲语言的母语者和传承者权力方面迈出了充满希望的一步。
机器翻译技术的创造、发展和部署,在历史上与监视和治理的实践纠缠在一起。翻译仍然是一种政治行为,而数据驱动的机器翻译发展主要集中在工业领域,使翻译转移权力的机制变得复杂化。认识到机器翻译作为一种工具和范式的缺陷,对于更好的阐明其使用适当的语境和背景是必要的。

原文链接:
https://thegradient.pub/machine-translation-shifts-power/