基线|解决AI“高分低能” 需要升级的是考核机制( 二 )

尚坤认为，针对上述问题，改进基准的方法主要有：一种是增加更多的数据集，让基准变得更难。用没有见过的数据测试，这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试平台，针对每个任务，通过众包的方式，提交他们认为人工智能模型会错误分类的数据，成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注，同时迭代式的训练模型，而不是使用传统的静态方式， AI模型应该可以实现更实质性的进化。
尚坤说，另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高，还是要用实际场景下的数据来检验，所以通过对数据集进行更贴近真实场景的增强和扩容使得基准测试更加接近真实场景。如ImageNet-C数据集，可根据16种不同的实际破坏程度对原有的数据集进行扩充，可以更好模拟实际数据处理场景。
应用广泛，需尽快建立国家标准
美国麻省理工学院Cleanlab实验室的研究指出，常用的10个作为基准的数据集中，有超过3%的标注是错误的，基于这些基准跑分的结果则无参考意义。
“如果说，基准测试堪称人工智能领域的‘科举制’ ，那么， ‘唯分数论’输赢，是不可能训练出真正的好模型。要打破此种现象，一方面需要采用更全面的评估方法，另一方面可以考虑把问题分而治之，比如用多个AI模型解决复杂问题，把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定性基线库，来更好评估AI应用的稳健性和处理复杂不确定性的能力。 ”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。
虽然行业正在改变对于基准的态度，但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者，其中许多人指出，改进数据集不如设计模型更有成就感。
谭茗洲表示， AI应用基准研究是构建国内统一大市场的内在需要，当前AI已经在国计民生的各类领域中得到广泛应用，更需要设立标准对AI模型进行全面有效的评估，片面追求和采用高分AI模型，可能会让模型在复杂极端场景下出现“智障”行为，并且可能由于训练和推理性能的低效，造成不良社会影响、经济损失和环境破坏。
谭茗洲强调， AI应用基准研究关乎国家战略。针对重要领域，建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。
据了解，西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻性研究，特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题，正在开发可在线协作的数据标注与AI模型研发托管项目，并计划今年陆续开源，正在为构建国家AI基准评估标准体系进行积极探索。