百万量级的多模态对话数据集来了,153万张图片4000多主题( 二 )
简单来说 , 该模型包括一个回复模态意图预测模块和一个回复排序模块 , 它们具有相似的模型结构 , 并利用CLIP分别编码对话历史U以及回复候选集C中的文本和图像 。
在模态意图预测模块做出下一个元素的模态预测后 , 排序模块会从C中选择与其相关性最高的作为多模态回复的组成部分 , 直到模态意图预测模块判定已被完整检索回为止 。
文章图片
研究团队本篇论文的研究团队来自北大和微软 。
文章图片
其中一作冯家展 , 是北京大学智能学院的博士生 , 在MSRA实习期间完成本次研究 。
论文和GitHub链接附在文末 , 如果你是硕士生/博士生/博士后/教职员工/研究型员工等 , 可以点击申请访问权限~
GitHub链接:
https://github.com/victorsungo/MMDialog论文链接:
https://arxiv.org/abs/2211.05719参考链接:
https://mp.weixin.qq.com/s/SArX84T1CDW6p2jWGxPc8A—完—
【百万量级的多模态对话数据集来了,153万张图片4000多主题】量子位QbitAI·头条号签约
- 华为荣耀|明基E500, 是一款比较值得尝试的商务智能投影
- vivo x|摊牌了,伪装游戏手机的影像手机:或为vivo新一代视频王者
- 微信|带你了解微信新版本的几个实用功能
- 笔记本|产品需求开发的四个步骤
- 随着华为Mate50系列手机的发布|华为p60系列手机再次曝光,搭载骁龙8gen2处理器
- 周鸿祎|产品需求开发的四个步骤
- 此前OPPO旗下的ColorOS13系统就已经开放了部分机型的升级|opporeno8正式版升级,用户建议升级一波
- Java|VivoX90系列定档11月22日!首发天玑9200,真的会首发骁龙8gen2吗
- iOS|iOS16.1.1被更多果粉认可!续航突破极限,堪称史诗级的优化
- 伊隆·马斯克|支付宝不是当年的支付宝,蚂蚁也不是当年的蚂蚁