百万量级的多模态对话数据集来了，153万张图片4000多主题( 二 ) 羿阁发自凹非寺量子位|公众号

简单来说，该模型包括一个回复模态意图预测模块和一个回复排序模块，它们具有相似的模型结构，并利用CLIP分别编码对话历史U以及回复候选集C中的文本和图像。
在模态意图预测模块做出下一个元素的模态预测后，排序模块会从C中选择与其相关性最高的作为多模态回复的组成部分，直到模态意图预测模块判定已被完整检索回为止。

文章图片
研究团队本篇论文的研究团队来自北大和微软。

文章图片
其中一作冯家展，是北京大学智能学院的博士生，在MSRA实习期间完成本次研究。
论文和GitHub链接附在文末，如果你是硕士生/博士生/博士后/教职员工/研究型员工等，可以点击申请访问权限～
GitHub链接：
https://github.com/victorsungo/MMDialog论文链接：
https://arxiv.org/abs/2211.05719参考链接：
https://mp.weixin.qq.com/s/SArX84T1CDW6p2jWGxPc8A—完—
【百万量级的多模态对话数据集来了，153万张图片4000多主题】量子位QbitAI·头条号签约