让机器实现多感官进化,云从跨模态新研究入选EMNLP 2021

机器之心专栏
云从科技
近日 , 国际NLP领域顶级会议EMNLP2021拉开帷幕 。 云从科技与上海交通大学联合研究团队的论文《Relation-awareVideoReadingComprehensionforTemporalLanguageGrounding》成功被会议收录 , 并于大会进行线上宣讲 。
EMNLP(ConferenceonEmpiricalMethodsinNaturalLanguageProcessing)是计算语言学和自然语言处理领域的顶级国际会议之一 , 由国际语言学会(ACL)旗下SIGDAT组织 。 EMNLP论文入选标准十分严格 , 今年论文录取率仅23.3% , 相比去年略有下降 。 EMNLP学术会议上展示的研究成果 , 被认为代表着自然语言处理领域的前沿水平与未来发展方向 。
本次云从科技与上海交大联合团队的入选论文 , 围绕「基于语言查询的视频片段定位」这一视觉-文本的跨模态任务 , 将NLP与视觉技术结合 , 技术让机器同时具备「理解文字」和「看懂视频」的能力:能够更精准地读懂文字 , 并理解视频内容 , 在整段视频中找出与给定文字相对应的视频片段 。 该项成果在多个数据集上都取得了优于过去研究的表现 。
这一成果在技术研究与实践领域都具有十分重要的意义:
在技术上让机器实现「多感官进化」:在云从看来 , 视觉、听觉等单点AI技术将越来越难以满足多样的应用需求 。 云从与上交大的该项技术 , 旨在让机器向完成“跨模态任务”进化:让机器能够同时掌握视觉、文字等多种模态的信息 , 做到像人类一样看懂、听懂、读懂 , 拥有全面的能力 。 近年来在学界 , 跨模态任务已成为一大研究热点 , 为AI领域注入新的活力;
突破单点技术 , 扩大跨模态应用场景:在实战场景中 , 随着高清摄像头的普及以及网络媒体的快速发展 , 各式各样的视频呈海量增长态势 , 自动化视频处理AI技术也迎来巨大需求 。 云从与上海交大的本项成果——基于语言查询的视频片段定位技术 , 能够有效解决治理、出行等多领域的难点问题 , 例如公共场合下的安全监控、社交媒体视频内容的审核等等 , 突破以往的单点技术应用瓶颈 , 带来数量级的效率提升 。
今年以来云从的多项技术频频在国际权威数据集、顶级会议上收获佳绩:本次入选EMNLP , 也是云从今年在继视觉、语音等领先技术获得国际认可后 , 在NLP领域斩获的又一成果 。 NLP等决策技术被认为是AI领域下一个技术突破口 , 使机器拥有理解、思考、分析决策的能力 , 为人机交互、行业应用等带来颠覆性改变 。
在技术持续领先与创新的背后 , 是云从对于技术与产业变革的深刻理解 。 人工智能产业经历了单点技术的发展后 , 如今已来到云从定义的「二浪时代」 , 客户寻求以智能解决方案实现全业务链条的AI赋能 , 形成行业价值闭环 。 云从紧密把握产业趋势 , 突破了一般AI企业单点技术的局限 , 构筑起感知-认知-决策的核心技术闭环 , 凭借原创的核心技术 , 打造更全面的人机协同操作系统CWOS与行业智能化解决方案 , 加快各行业的智能化变革 。
论文解读
云从科技和上海交大提出了Relation-awareNetwork(RaNet) , 探索视频片段定位任务中的多种层面关系 。
让机器实现多感官进化,云从跨模态新研究入选EMNLP 2021
文章图片
论文地址:https://arxiv.org/abs/2110.05717
代码地址:https://github.com/Huntersxsx/RaNet
背景介绍
基于语言查询的视频片段定位任务(TemporalLanguageGrounding):给定一个视频和一段描述语句 , 通过融合视觉和语言两种模态的信息 , 在视频中定位出语言所描述内容的视频片段 。
随着高清摄像头的普及以及网络媒体的快速发展 , 每天都会出现大量各式各样的视频 , 自动化的视频处理技术就被广泛应用在公共场合下的安全监控、社交媒体上视频内容的审核中 , 作为视觉-文本的跨模态任务 , 基于语言查询的视频片段定位也受到了越来越多的关注 。