ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队( 二 ) 作者|Antonio编辑|陈彩娴ACL2022已

1、文章针对英语作为源语言，五种语言（中文、德文、意大利语、俄罗斯语和西班牙语）作为目标语言，标注了常见的WSD中出现的带有歧义词的正负样例，如下图展示了一个样例，显示了英文中shot在不同语言中的正误翻译：
文章图片
文章详细描述了句子的收集过程，包括语言库选择、句子清洗和过滤、数据集标注等。下图展示了数据集的标注统计量：

文章图片
其中数据集主要收集了名词和动词。之后由于数据集是从BabelNet中收集的，文中则定义了好的和坏的释义集，并且统计了多大比例的释义被标注者添加（OG）；多大比例被移除（RG）和两句例句使用同一释义的比例（SL），统计量如下：

文章图片
2、除了准确率，文章定义了四种全新的评价指标，用来衡量频率和词义的关系，它们分别是：SenseFrequencyIndexInfluence(SFII) ， SensePolysemyDegreeImportance(SPDI) ， MostandMoreFrequentSenses相关的两个MFS和MFS+ 。 3、文章比较了5类SOTA的机器翻译系统，包含两类商业系统：DeepLTranslator ， GoogleTranslator和三类非商业模型，包含：OPUS ， MBart50和M2M100 。它们在五类语言上的分类结果参考下图：
文章图片
从准确率上可以看出， DeepL的性能要显著得比其它方法更好。
在细粒度分析歧义的新指标上，也有类似的趋势：

文章图片
之后，文章还探讨了很多有意思的语言学分析，比如，是否动词要比名词更难翻译？编码器是否真的可以去歧义等等？有兴趣的读者可以找来文章细细阅读。
代码和评测平台之后会放出：https://nlp.uniroma1.it/dibimt
3实体去歧义任务的新定义
文章图片
论文标题：ExtEnD:ExtractiveEntityDisambiguation【ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队】论文链接：https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation
文章对WSD内的一个更加细粒度的实体去歧义的任务进行了新的方式去定义，即把它当作一个文本抽取的任务，并且采用两个Transformer模型架构实现（命名为EXTEND）。 EXTEND在6个评价数据库中有4个在F1score上都达到了SOTA水平。
实体是指关系网络中的节点，相比WSD中更加宽泛的词汇，实体名词往往更具有实际意义，并且更有多义性的可能性，下面展示了一个例子，选出Metropolis可能指的是哪个场景下的。

文章图片
具体而言，如下图， EXTEND架构首先将输入的上下文和所有的候选项拼接在一起，模型的输出则是目标选项的起始和终止的单词索引。其中，提取特征的部分是Longformer ，之后的head采用简单的FC输出每一个词汇可能成为起始和终止的概率。

文章图片
事实上，将WSD定义为这种文本提取的方式在之前的方法ESC和ESCHER中被两次用到（都是同一位作者），其中的ESCHER方法是当前WSD的SOTA方法，这启发我们这种截取式方式的有效性。
以下是模型在6个数据集上的表现，它在其中的4个上面达到了最优的水平。