百万量级的多模态对话数据集来了,153万张图片4000多主题( 二 )


简单来说 , 该模型包括一个回复模态意图预测模块和一个回复排序模块 , 它们具有相似的模型结构 , 并利用CLIP分别编码对话历史U以及回复候选集C中的文本和图像 。
在模态意图预测模块做出下一个元素的模态预测后 , 排序模块会从C中选择与其相关性最高的作为多模态回复的组成部分 , 直到模态意图预测模块判定已被完整检索回为止 。
百万量级的多模态对话数据集来了,153万张图片4000多主题
文章图片
研究团队本篇论文的研究团队来自北大和微软 。
百万量级的多模态对话数据集来了,153万张图片4000多主题
文章图片
其中一作冯家展 , 是北京大学智能学院的博士生 , 在MSRA实习期间完成本次研究 。
论文和GitHub链接附在文末 , 如果你是硕士生/博士生/博士后/教职员工/研究型员工等 , 可以点击申请访问权限~
GitHub链接:
https://github.com/victorsungo/MMDialog论文链接:
https://arxiv.org/abs/2211.05719参考链接:
https://mp.weixin.qq.com/s/SArX84T1CDW6p2jWGxPc8A—完—
百万量级的多模态对话数据集来了,153万张图片4000多主题】量子位QbitAI·头条号签约