矩阵|2022年,人工智能带给人类更多惊喜

◎实习采访人员 都 芃
即将过去的2022年 , 对于人工智能来说是值得铭记的一年 。 大批人工智能相关应用走出实验室 , 向着大范围落地实践不断迈进 。 AI“黑科技”加持下的北京冬奥会异彩纷呈;无人驾驶开启多城试点 , 未来交通更进一步;AI绘画以假乱真令人着迷 , 艺术创作或许不再是人类专属……
无论是底层技术不断突破 , 还是各类应用百花齐放 , 在过去的一年 , 人工智能向我们展示了它的无限可能 。 我们相信这只是人工智能的冰山一角 , 未来它还有更多潜力等待我们去挖掘 。
随着技术的不断成熟 , 落地应用不断创新 , 人工智能或将真正改变你我的生活 。
AI“黑科技”照亮北京冬奥会
助力天气预报、比赛转播和手语播报等
2月4日 , 全球瞩目的2022年北京冬奥会正式拉开帷幕 。 人工智能等技术的应用为本届冬奥会增添了别样的“科技之美” 。
在此次冬奥会上 , 由中国科学院院士、北京大学副校长、北京大学重庆大数据研究院首席科学家张平文领衔研制的人工智能MOML算法赋能天气预报模型 , 使冬奥会天气预报更加精准 。 人工智能算法在融合、处理信息中的先天优势 , 使其在一定程度上可以代替预报员在会商中进行信息整合、分析 , 通过数据挖掘与学习 , 将预报员的经验内化在算法中 , 在提高天气预报效率的同时 , 也进一步提高了预报的准确率 。
在本届冬奥会自由式滑雪女子大跳台决赛中 , 中国选手谷爱凌以“逆天”的精彩表现获得个人首金 。 在比赛转播过程中 , 百度智能云通过“3D+AI”技术打造出的“同场竞技”系统 , 将单人比赛项目变成“多人比赛” , 实现冠、亚军比赛画面的三维恢复和虚拟叠加 , 方便观众看到不同选手的实时动作;同时 , 通过技术手段对运动员动作进行量化分析 , 将滑行速度、腾空高度、落地远度、旋转角度等一系列运动数据与原始画面叠加起来 , 使观众可以更直观地从流畅性、完成度、难度、多样性和美观度等角度看懂选手之间的技术动作差异 。
在北京冬奥会开幕的同一天 , 央视新闻AI手语主播也正式上岗 , 她在冬奥会新闻播报、赛事直播和现场采访中 , 为听障人士送上了实时手语翻译服务 。 凭借精确的手语翻译引擎 , 该AI手语主播可懂度达85%以上 , 可将冰雪赛事的文字及音视频内容 , 快速精准地转化为手语 。
腾讯“混元”AI大模型登顶VCR榜单
展现了其在多模态理解领域的强大实力
5月31日 , 腾讯“混元”AI大模型在多模态理解领域国际权威榜单VCR(Visual Commonsense Reasoning , 视觉常识推理)中登顶 , 两个单项成绩和总成绩均位列第一 。 这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后 , “混元”AI大模型的又一重大突破 , 展现了其在多模态理解领域的强大实力 。
与跨模态理解任务不同的是 , 多模态理解任务要求计算机除了能够做到识别层次的感知(如分类检测等) , 还需要达到认知层次的感知(如判断意图、逻辑推理等) 。
此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发 , 同时借助腾讯太极机器学习平台的图形处理器算力和训练加速框架 , 在预训练任务、训练方式上进行了诸多创新改进和设计 , 有效提升了模型性能 。
截至目前 , “混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得了第一名的成绩 , 并刷新多项行业历史纪录 。 这意味着 , “混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已得到验证 。