太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板( 三 )

太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
DALL·E-2生成的不同风格的“Apoploevesrreaitais” , 形态虽异 , 但“会飞的东西”这一视觉概念得到了保持 。 文本和生成图像的一致性回顾一下农民和鸟的例子 。 当时的提示是:两个农民在谈论蔬菜 , 有字幕 。 结果 , 既发现有蔬菜、也发现有鸟的存在 。 两个农民谈论鸟类是非常合理的 , 这就提出了一个非常有趣的问题:DALL·E-2的文本输出是否与文本条件和生成的图像一致?实验表明 , 有时我们得到的胡言乱语的文本翻译成视觉概念 , 与首先产生胡言乱语文本的标题一致 。 有点绕口 , 简单一点 , 就是种瓜得瓜种豆得豆 , 管它是印象派还是写实派 , 结出的瓜和豆和最初的瓜豆种子(废话文学快住嘴) , 能看的出还是有联系的 。 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
例如 , "Twowhalestalkingaboutfood,withsubtitles"(两只鲸鱼在谈论食物 , 有字幕)产生了一个带有文字"Wachzodahaakesrea"的图像 。 把这段文字作为提示输入模型 , 在生成的图像中看到了海鲜 。 结合上图“不同风格的鸟”看来 , 胡言乱语的文本确实有其含义 , 有时与产生它的文本条件相一致 。 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
在鲸鱼图中 , 生成图像中不明所以的文字"Wachzodahaakesrea" , 与产生的图像、标题和第一幅图像的视觉输出是相关的 。 3安全性和可解释性的挑战有一种可能是 , 这些非人类现有语言的单词是不同语言中正常单词的拼写错误 , 但两位作者在搜索中没有发现任何这样的例子 , 所以这些词的来源仍然令人困惑 。 而且在他们的初步实验中 , 有些词并不像其他词那样具有一致性 , 也就是说 , 目前DALL·E-2的这套语言在从文本生成图像时的稳健性可能不足 。 初步研究表明 , 像“Contarraccetnxniamslurycatanniounons”这样的提示有时会产生包含虫子和害虫的图像(约占生成图像的一半) , 每次还会产生不同的图像 , 大部分是动物 。 而“Apoploevesrreaitais”这个短语的一致性明显更强 , 可以以各种方式组合来生成具有一致性的图像 。 如果要测试更多提示语的稳健性 , 则需要大量的实验 。 论文作者表示 , 如果一个系统表现出疯狂的不可预测性 , 即使这种情况很少发生 , 也仍然是一个重要的问题 , 特别是对于一些应用程序而言 。 另一个有趣的问题是 , Imagen是用语言模型训练的 , 而不是CLIP , 它是否也会有一个类似的隐藏词汇库呢?无论如何 , 生成图像的荒谬提示挑战了我们对这些大型生成模型的信心 。 显然 , 在理解这些现象和创建稳健的、与人类预期相一致的语言和图像生成模型方面还需要更多的基础研究 。 更多细节 , 可参考论文原文:太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
论文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf参考链接:
https://twitter.com/giannis_daras/status/1531693111755149312https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板】雷峰网雷峰网