“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器( 二 )


来自清华的“据意查句”
以上说的这个好登西 , 是由清华推出的“据意查句”神器——WantQuotes 。
诞生自清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP) , 项目指导教师为孙茂松教授和刘知远副教授 。
能够快速从全世界这么多语料中找到你想要的句子 , 这个神器主要靠的是一个超大的数据集和一个推荐模型 。
数据集包含了英语、现代汉语和文言文三大部分 。
其中 , 英语部分有6108个名言警句和126713个上下文文本段;
现代汉语部分 , 包含有3004句名言和408433个相关上下文;
文言文部分 , 则有4438段文言典故(包括古诗)和116537段相关上下文 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
推荐模型方面 , 本文提出使用BERT作为句子编码器来学习名言警句和相关文本表示 。
但由于绝大多数名言警句的表达都非常凝练 , 但是可能其中每个背后的意义又包含很多层 , 所以在本方法中 , 研究人员将义原引入到编码器中 。
简单来说 , 义原是语言学中最小的语义单位 。 语言学家认为义原体系在任何语言中都适用 , 不与特定语言相关 。
举个例子 , “男孩”这个词可以由“人类”、“男性”、“儿童”这个三个义原表示 , “女孩”则可以由“人类”、“女性”、“儿童”的组合来表达 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
因此在模型中引入义原后 , 就能很好解决词义消歧的问题 , 并且能更准确地捕捉到词与词之间的关系 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器】也就是让模型把语言学得更加透彻 。
而在具体任务对比中可以看到 , 本文方法的性能均优于其他方法 。
同时用消融实验验证了训练方法的有效性(下表最后三行结果) 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
在只给出左侧文本的条件下 , 本文方法的结果依旧优于过去方法 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
还有反向词典和AI作诗系统
看到这里你可能觉得这项工作有点似曾相识 。
没错 , 那个之前爆火的“反向词典”也来自这个实验室 。
所谓“反向” , 就是和常规词典不同 , 不是按词寻义 , 而是反过来给词典一段描述 , 让它来帮你找词 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
比如还是这句“听我说谢谢你 , 因为有你 , 温暖了四季” , 用成语应该怎么说?
反向词典可以立马抛出几十乃至上百个选项出来 , 并且还会标注推荐程度 。
背景颜色越深 , 代表系统推荐程度越高 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
要是碰上啥看不懂的 , 鼠标一点 , 就能查看具体释义 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
而除了拯救现代失语人外 , 他们还让AI尝试过写古诗 , 之前也在网络上爆火过 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片
不得不说 , THUNLP真是要把AI+中文玩出花了 。
该实验室由孙茂松教授领衔 , 教师队伍中还有刘洋教授和刘知远副教授 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器
文章图片