基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本( 三 )




3

实验结果和分析
这篇工作在机器翻译领域适应和多领域机器翻译两种任务上进行了实验,KSTER 相比 kNN-MT 在两种任务上均有提升。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图5 机器翻译领域适应任务上的实验结果
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图6 多领域机器翻译任务上的实验结果
图7 展示了学到的带宽估计器和权重估计器在测试时估计出的带宽和权重分布。带宽估计器和权重估计器学到了在不同的解码步中估计出不同的核函数带宽和权重。不同领域带宽和权重的分布也各不相同。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图7 不同领域的核函数带宽和混合权重分布
图8 展示了在检索不同数量样本时,kNN-MT 和 KSTER 的翻译效果,在多个不同 k 的设定下,KSTER都稳定超过kNN-MT。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图

图8 检索不同数量样本 k 时,kNN-MT 和 KSTER 的翻译效果
图9 验证了检索丢弃这种训练策略的必要性。在不使用检索丢弃策略时,KSTER模型产生了严重的过拟合。而使用检索丢弃策略后,过拟合的现象得到明显缓解。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图9 检索丢弃训练策略有助于缓解过拟合
系统展示
作者基于 KSTER 开发了一个基于在线干预机器翻译系统,用于展示翻译系统在线修复bad case的能力。图10 - 14 展示了一些具体的样例。
如 图10 所示,由于训练数据中没有出现过“字节跳动”这种新兴实体,以及“C位”这类新词,翻译系统对它们的翻译效果是不好的。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图10 Base 模型翻译结果
同样的,当翻译数据库中没有存储包含有“字节跳动”和“C位”的样本时,即使具有相似样本检索的机制,KSTER 也无法翻译好相关的句子,产生了两个 bad case,如图11所示。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图11 KSTER 翻译结果
接下来,作者修正 bad case 的翻译结果,并把 图12 中的两个翻译样本添加至翻译数据库中,即用这两个样本更新翻译系统。这个过程只需数秒,可以做到近实时的更新。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图12 向 KSTER 翻译数据库中添加以上样本
如 图13 所示,在添加了以上样本后,翻译系统在生成译文时便可检索到相似的翻译样本,辅助译文生成,KSTER 翻译效果明显提高。在混合权重的可视化中,也可以看出在检索到相似样本时,翻译系统更多地依赖相似样本预测下一个词。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 样本
文章插图
图13 添加样本之后KSTER的翻译结果
最后,如 图14 所示,作者输入两个带有“字节跳动”和“C位”但与翻译数据库中存储样本不同的句子,翻译系统依然可以准确地翻译这两个句子。这个现象表明,KSTER 对于 bad case 的修复是具有泛化性的,可以通过修复一个 bad case 实现修复一类 bad case。在混合权重的可视化中也可以看出,在翻译“字节跳动”和“C位”时(即生成"ByteDance"和"the central position"时),翻译系统更多地依赖检索到的样本,而在翻译其他部分时,翻译系统更多地依赖 NMT 模型输出。