https|2022年最有开创性的10篇AI论文总结( 二 )


开发对话语言模型的主要挑战之一是确保它们的回答符合人类价值观 , 例如防止有害的建议和不公平的偏见 。 为了解决这个问题 , 研究人员使用了一个经过少量注释数据微调的LaMDA分类器来过滤候选响应 。 这种方法显示出了提高模型安全性的希望 。
另一个挑战是使模型能够参考外部知识来源 , 如信息检索系统或简单的计算器 , 来生成基于已知事实而不仅仅是听起来似是而非的的响应 , 研究人员发现他们的方法使LaMDA能够通查询外部知识来源产生更多基于事实的回应 。
除了这些技术成就 , 研究人员还探索了LaMDA在教育和内容推荐领域的使用 , 分析了它在这些领域的帮助和角色一致性 。 总的来说 , LaMDA的发展代表了自然语言处理领域的重大进步 , 并有潜力改进广泛的基于对话的应用程序 。
4、A ConvNet for the 2020sLiu Z. Mao H. Wu C. Y. Feichtenhofer C. Darrell T. & Xie S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11976–11986).
在过去的十年里 , 随着ViTs的引入 , 视觉识别领域发生了重大变化 。 虽然普通vit在一般计算机视觉任务(如对象检测和语义分割)方面取得了一些成功 , 但真正在这些领域产生影响的是分层 Transformer , 例如 Swin Transformers 。 但是这些混合方法的有效性通常归因于 Transformer 的优越性 , 而不是卷积固有的归纳偏差 。
在最近的一项研究中 , 研究人员着手测试纯 ConvNet 所能达到的极限 。他们逐渐对标准 ResNet 进行“现代化”以靠近Transformer , 并发现了导致两者性能差异的几个关键组件 。这种探索的结果是称为 ConvNeXts 的纯 ConvNet 模型系列 。ConvNeXts 完全由标准的 ConvNet 模块构建而成 , 能够在准确性和可扩展性方面与 Transformers 相媲美 , 并且保持了标准 ConvNet 的简单性和效率 。
5、OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRadford A. Kim J. W. Xu T. Brockman G. McLeavey C. & Sutskever I. (2022). Robust speech recognition via large-scale weak supervision. arXiv preprint arXiv:2212.04356.
Whisper 是 OpenAI 的开源的用于转录的AI 模型 。它是一种基于 Transformer 架构的大规模音频模型 , 使用从网络收集的超过 600000 小时的多语言和多任务监督数据进行了训练 。模型能够以30秒为单位处理音频记录 , 并使用编码器部分对音频进行编码 , 然后由解码器使用该部分来预测正在说的标记或单个单词 。 解码器使用这一编码信息 , 以及预测的前一个单词 , 来猜测下一个最有意义的单词 。
Whisper 的主要优势之一是它的稳健性 , 它使用了各种数据集进行训练 , 包括剪辑、TED 演讲、播客和访谈 。虽然其中一些数据是使用机器学习模型转录的(这可能会引入错误) , 但也有助于模型更好地处理实际的场景 。虽然 Whisper 可能不是针对特定任务的最强大模型 , 但可以使用其他数据对其进行微调 , 以提高其在特定任务上的性能 。事实证明 , 微调像 Whisper 这样的预训练模型比在特定任务上从头开始训练模型产生更好的结果 。
6、Gato DeepMind: General AIReed S. et al. (2022). A Generalist Agent. DeepMind
DeepMind开发了一种名为Gato的的多模态模型 , 它利用基于 Transformer 的架构来执行各种任务 。 Gato能够处理广泛的输入 , 包括文本、图像和机械臂的扭矩数据 , 并产生一系列输出 , 包括可理解的文本、扭矩功率和按钮按下 。 这意味着Gato可以用于执行广泛的任务 , 包括语言翻译和图像字幕 , 甚至可以玩雅达利游戏 , 它可以执行604种不同的任务 。 Gato的主要优势之一是它的多功能性 。 Gato不需要为不同的任务训练和集成多个专门的模型 , 而是可以用一组权重和一个相对简单的架构处理所有这些任务 。 这使得它比以前的方法更高效、更经济 , 因为以前的方法通常需要开发多个专门的模型 。