基线|解决AI“高分低能” 需要升级的是考核机制

◎采访人员 华 凌
近日 , 有媒体报道 , 目前部分人工智能沉迷刷榜 , 在基准测试时高分通过 , 表现优异 , 但实际应用中却还会犯一些非常基础的错误 。 这种沉迷刷榜 , 忽略实用性质的行为造成了部分AI模型“高分低能”的现象 。 那么 , 对于AI发展而言 , 基准测试是否必要?在实际应用中 , 基准测试哪些问题有待改进完善呢?
AI模型哪家好 , 基准测试来说话
【基线|解决AI“高分低能” 需要升级的是考核机制】AI模型应该如何衡量其性能?
“目前AI模型能力的高低取决于数据 , 因为AI的本质是学习数据 , 输出算法模型 。 为了公平衡量AI能力 , 很多机构、企业甚至科学家会收集、设计不同的数据集 , 其中一部分喂给AI训练 , 得到AI模型 , 另外一部分数据用于考核AI模型的能力 , 这就是基准测试 。 ”近日 , 西安电子科技大学电子工程学院教授吴家骥接受科技日报采访人员采访时表示 。
吴家骥介绍说 , 机器学习越来越多地用于各种实际应用场景 , 例如图像和语音识别、自动驾驶汽车、医学诊断等 。 因此 , 了解其在实践中的行为和性能变得非常重要 。 其鲁棒性和不确定性的高质量估计对于许多功能至关重要 , 尤其是在深度学习领域 。 为掌握模型的行为 , 研究人员要根据目标任务的基线来衡量其性能 。
2010年 , 基于ImageNet数据集的计算机视觉竞赛的推出 , 激发了深度学习领域一场算法与数据的革命 。 从此 , 基准测试成为衡量AI模型性能的一个重要手段 。 微软公司的计算机科学家马塞洛·里贝罗表示 , 基准测试应该是从业者工具箱中的一个工具 , 人们用基准来代替对于模型的理解 , 通过基准数据集来测试“模型的行为” 。
例如 , 在自然语言处理领域 , GLUE科研人员让AI模型在包含上千个句子的数据集上训练 , 并在9个任务上进行测试 , 来判断一个句子是否符合语法 , 并分析情感 , 或者判断两个句子之间是否是逻辑蕴涵等 , 一度难倒了AI模型 。 随后 , 科研人员提高了基准测试难度 , 一些任务要求AI模型不仅能够处理句子 , 还要处理来自维基百科或新闻网站的段落后回答阅读理解问题 。 仅经过1年的发展 , AI模型的性能从不到70分轻松达到90分 , 超越了人类 。
吴家骥表示:“科学研究要有科学问题、方法、计算、试验对比等要素 。 因此在进行科学研究 , 包括人工智能的科研中 , 也必须有计算与试验对比 , 也就是说AI算法的能力应该是可测量的 , 目的是验证研究方法的可行性、有效性 。 因此 , 基准测试很有必要 , 这样才可以公平验证AI算法能力的高低好坏 , 避免各说各话 , ‘王婆卖瓜自卖自夸’ 。 ”
算法最终服务实践 , 而非刷榜
有人说 , 高分是AI模型的兴奋剂 。 于是 , 有的人工智能为了取得好成绩而频频刷榜 。
微软公司2020年发布报告指出 , 包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误 , 比如把句子里的“what's”改成“what is” , 模型的输出结果就会截然不同 , 而在此前 , 从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕 。 显然 , 这样训练出的AI模型就像一个只会考试、成绩优异的学生 , 可以成功通过科学家设置的各种基准测试 , 却不懂为什么 。
“为了获得好成绩 , 研究人员可能会使用特殊的软硬件设置对模型进行调整和处理 , 让AI在测试中表现出色 , 但这些性能在现实世界中却无法施展 。 ”西安电子科技大学研究员尚坤指出 。
在智能手机领域 , 我们谈及手机的使用体验时一般都不免会涉及手机的性能表现 , 这些性能通常会用跑分成绩来表现 。 然而 , 我们常常会遇到一款手机的跑分成绩处于排行榜领先水平 , 但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象 。 全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑 , 指出某品牌手机跑分时启动了“性能模式” , 而在平时的使用中“性能模式”很少被调用开启 。 这种处理方式虽然能够获得高跑分 , 但是不能模拟用户真实的使用情景 , 这让基准测试不具有参考意义 。