ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队

ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队
文章图片
作者|Antonio
编辑|陈彩娴ACL2022已经于近期正式在官网上刊登了录取的文章 , 其中涉及到词义消歧(WordSenseDisambiguation,WSD)的文章共有4篇 , 参考下图的查询 。
WSD是指识别出有多个义项的目标词汇在上下文中的含义 , 是NLP中一个重要并且具有NP-hard复杂度的任务 , 不仅可以帮助机器更好地识别词汇语义 , 还对机器翻译、文本理解等下游任务起到辅助作用 。
本文简要整理并介绍其中已经公布了论文全文的前三篇 , 值得注意的是 , 这三篇都出自同一个课题组 , 即来自意大利罗马一大的SapienzaNLP , 导师为RobertoNavigli 。
ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队
文章图片
(ACL22上关于WSD的论文)
1WSD真的超过了人类性能了吗?ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队
文章图片
论文题目:NibblingattheHardCoreofWordSenseDisambiguation
下载链接:https://www.researchgate.net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation
本文是一篇评测以往的WSD方法的分析型论文 , 并根据对于当前方法的不足 , 提出了更加富有挑战性的数据集和评测指标 。 具体而言:
1、文章从定性和定量两个方面 , 仔细分析了7个当前最SOTA的模型都会存在的一些错误和偏差 。 这些模型都是经典模型 , 并且在当时达到过最佳性能 。 它们分别是基于判别式的ARES , BEM , ESCHER(当前SOTA) , EWISER , GlossBERT;基于生成式的Generationary;和无监督训练的SyntagRank模型 。 值得注意的是 , 这7个模型中有5个模型是属于Roberto课题组 。 考虑到理想的模型应该表现得和人类类似的假设 , 现有模型在WSD上犯得很多错误是低级和违背常识的 。 例如下面的例子:ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队
文章图片
ESCHER是当前SOTA模型 , 在上述对于母语者看来wind一定不会是空气的含义 , 但模型却判断错误 。 从定量的角度 , 文章重点分析了WSD中非常常见的不平衡问题——最频繁释义偏差(MFS)和训练数据偏差 , 即测试集中存在训练集中从未见过的释义 。 这两个问题都由知识不确定性(epistemicuncertainty)导致的 。 从定性角度 , 文章则分析了标注者偏差 , 这属于固有的随机不确定性(aleatoricuncertainty) , 一个语言学专家标注了测试集出现的6类偏差 , 并做了详细分析 。 2、出于上述偏差的分析 , 文章也提出了一系列更硬核的评测测试集合 , 即42D , 42个语言domain , 并且对于那些不常出现的释义目标也做了很好的评估 。 同时研究者们提出了修正了原有的micro-averaged的F1得分 , 而变成了macro-average的F1得分 。 最后 , 文章收集了在上述模型中都难以分对的那些实例 , 命名为“hardEN” 。 换句话说这个所有的模型对于这个测试集的F1得分都为0 。 这样对于之后模型评估设计了一个很难的试金石 。 2用来衡量机器翻译中的WSD的测试基准ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队
文章图片
论文题目:DIBIMT:ANovelBenchmarkforMeasuringWordSenseDisambiguationBiasesinMachineTranslation论文链接:https://www.researchgate.net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation
一词多义现象在机器翻译中显得尤为突出 , 这也是机器翻译中常常出现的偏差的原因 。 文章研究了机器翻译中的多义性偏差现象 , 并且提出了一个全新的测试基准 , 包含针对多种语言的测试集以及评价指标 。 具体来看 , 文章的贡献有: