ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队( 二 )
1、文章针对英语作为源语言 , 五种语言(中文、德文、意大利语、俄罗斯语和西班牙语)作为目标语言 , 标注了常见的WSD中出现的带有歧义词的正负样例 , 如下图展示了一个样例 , 显示了英文中shot在不同语言中的正误翻译:
文章图片
文章详细描述了句子的收集过程 , 包括语言库选择、句子清洗和过滤、数据集标注等 。 下图展示了数据集的标注统计量:
文章图片
其中数据集主要收集了名词和动词 。 之后由于数据集是从BabelNet中收集的 , 文中则定义了好的和坏的释义集 , 并且统计了多大比例的释义被标注者添加(OG);多大比例被移除(RG)和两句例句使用同一释义的比例(SL) , 统计量如下:
文章图片
2、除了准确率 , 文章定义了四种全新的评价指标 , 用来衡量频率和词义的关系 , 它们分别是:SenseFrequencyIndexInfluence(SFII) , SensePolysemyDegreeImportance(SPDI) , MostandMoreFrequentSenses相关的两个MFS和MFS+ 。 3、文章比较了5类SOTA的机器翻译系统 , 包含两类商业系统:DeepLTranslator , GoogleTranslator和三类非商业模型 , 包含:OPUS , MBart50和M2M100 。 它们在五类语言上的分类结果参考下图:
文章图片
从准确率上可以看出 , DeepL的性能要显著得比其它方法更好 。
在细粒度分析歧义的新指标上 , 也有类似的趋势:
文章图片
之后 , 文章还探讨了很多有意思的语言学分析 , 比如 , 是否动词要比名词更难翻译?编码器是否真的可以去歧义等等?有兴趣的读者可以找来文章细细阅读 。
代码和评测平台之后会放出:https://nlp.uniroma1.it/dibimt
3实体去歧义任务的新定义
文章图片
论文标题:ExtEnD:ExtractiveEntityDisambiguation【ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队】论文链接:https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation
文章对WSD内的一个更加细粒度的实体去歧义的任务进行了新的方式去定义 , 即把它当作一个文本抽取的任务 , 并且采用两个Transformer模型架构实现(命名为EXTEND) 。 EXTEND在6个评价数据库中有4个在F1score上都达到了SOTA水平 。
实体是指关系网络中的节点 , 相比WSD中更加宽泛的词汇 , 实体名词往往更具有实际意义 , 并且更有多义性的可能性 , 下面展示了一个例子 , 选出Metropolis可能指的是哪个场景下的 。
文章图片
具体而言 , 如下图 , EXTEND架构首先将输入的上下文和所有的候选项拼接在一起 , 模型的输出则是目标选项的起始和终止的单词索引 。 其中 , 提取特征的部分是Longformer , 之后的head采用简单的FC输出每一个词汇可能成为起始和终止的概率 。
文章图片
事实上 , 将WSD定义为这种文本提取的方式在之前的方法ESC和ESCHER中被两次用到(都是同一位作者) , 其中的ESCHER方法是当前WSD的SOTA方法 , 这启发我们这种截取式方式的有效性 。
以下是模型在6个数据集上的表现 , 它在其中的4个上面达到了最优的水平 。
- Java|最值得期待的全能本?华硕预热灵耀Pro16 2022新品,配置全面升级
- 本文转自:中国消费品质量安全小时候|超全投屏教程,轻松玩转多屏共享
- 伊利2021年营收破千亿 2022年Q1净利同比增长24.08%
- 本文转自:烟台广播电视台4月28日早8:00至8:30|一机在手 畅享文旅,智慧文旅云平台迭代升级——市文化和旅游公共服务中心主任吴涛做客《民生热线》节目
- LG本周更新了2022款gram笔记本全产品线。|lg本周更新2022款gram笔记本全产品线
- 三六零|超越“短长”之争,共谋“双赢”之道
- 薪酬福利|报告:2022毕业生平均签约月薪6507元 仅一成过万!你达标了没?
- 4月28日消息|小米redmia582022款智能电视今日开售
- 图解:关于中国共产主义青年团章程,你了解多少
- 联想官方今天发布了2022款小新Air14Plus轻薄本|联想发布2022款小新air14plus轻薄本