中科院|让AI学会“哦买尬,买它!”,清北中科院争角逐顶会Workshop竞赛
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI看场直播或视频,结果却看中了主播的衣服、裤子甚至裙子?
现在,你不再需要手动截图识别了——
已经有人将AI用在直播商品识别技术中,帮你自动“挑出”其中的商品。
为了提升AI识别直播商品的准确率,阿里淘系技术联手浙江大学,在全球顶会ACM MM 2021的Workshop上搞了个AI识别大赛,甚至拿出1万美金(6.3万人民币)奖励TOP 3。
文章插图
来自清华、北大、中科院、CMU、浙大、哈工大、华科等高校的587支队伍纷纷参赛,力图研究出更好的算法。
文章插图
最终,来自中科院计算所的「mcg」夺得冠军,来自北大、南京大学、湖南大学的「写的代码都队」夺得亚军,来自中南大学、DGUT和华南理工大学的「百亿补贴matchmatchmatch」获得第三名。
文章插图
这场比赛究竟比了些什么,背后的Workshop又有些什么内容?
我们一起来看看。
多模态技术识别主播带货相比于用一张截图进行商品识别,直播的商品识别还需要考虑更多因素。
文章插图
从难度来看,直播时主播并非完全不动,而是会走动、转动来展示商品的形态,衣服非常容易发生形变、模糊;
同时,画面背景中还存在其它衣服的干扰、同时还可能面临直播遮挡、服装相似等问题。
从优势来看,直播时呈现给AI的信息量也会更多,包括主播的语音、带货商品标题等,都会在画面直播的同时呈现出来。
如果能结合语音识别,通过多模态技术增加模型输入信息量,就能有效提升商品检索的准确率。
具体来说,直播商品识别的过程是这样的:
文章插图
首先,对输入的视频解析成视频帧,再利用AI目标检测进行商品识别;
然后,再从视频中提取出语音进行AI语音识别,利用AI模型提取出有用的商品描述信息。
【 中科院|让AI学会“哦买尬,买它!”,清北中科院争角逐顶会Workshop竞赛】最后,利用多模态获取的信息,在商品数据集中进行检索,预测出最合适的商品,并给出对应的标签。
为了让选手们更好地识别商品,淘系技术还通过这个Workshop,开源了业界首个大规模的多模态视频商品检索数据集,包括50000对匹配的视频片段。
文章插图
其中,这些视频片段都是从淘宝直播和产品商店的直播中提取的。
标注也非常详细,包括产品类别、边界框、视点类型、展示类型、实例ID、标题描述和语音识别文本都有所涉及。
事实上,这已经不是淘系技术第一次举办这项比赛了。
中科院再次夺冠这场今年4月27日发起的比赛,是第二届淘宝直播商品大赛。
这是一个多模态领域的国际挑战赛,由阿里巴巴淘系技术联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起。
相比于第一届大赛,第二届大赛在赛题设计上,主要做了两点改进:
- 注重全类别的识别效果,尤其是长尾的商品类别、视觉纹理简单商品的识别等
- 5G|华为利用5G毫米波发现园区入侵者,这让美国5G联盟情何以堪
- 智能|地震救人新突破!中科院研制出触嗅一体智能仿生机械手
- 鸿蒙os|麒麟9000再度发力,华为高精度导航让你出行不迷糊
- 信息科学技术学院|瞧不起中国芯?芯片女神出手,30岁斩获国际大奖,让美国哑口无言
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋
- 本周华为小米相继报出的新闻,让我看到中国科技公司未来发展希望
- 6g|港媒:中国又在这一领域让美国寝食难安
- 上海微系统与信息技术研究所|地震救人新突破!中科院研制出触嗅一体智能仿生机械手
- 腾讯|前腾讯员工爆料:鹅厂的末位淘汰制让人心理崩溃!
- 美国|“绝不能让中国芯片供应自主计划得逞!”美国这回彻底不装了