太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板( 二 )
文章图片
这些有趣的发现引起了吃瓜群众的热烈讨论:
文章图片
这真是不可思议 。 我们能要求它用我们的语言说话吗?例如“两只鲸鱼在谈论食物 , 有英文字幕” 。
文章图片
伟大的工作!这些输出让我想起了我一直在训练的GANs , 它们产生了以前没有听说过的新词 。 有些是英语单词 , 有些可能是但不是 。 它们会赋予这些新词有意义的表述 。
文章图片
我要吹毛求疵一下 。 如果农民谈论的是“Apoploevesrreaitais” , 而“Apoploevesrreaitais的3D效果图” , 或“线条艺术 , Apoploevesrreaitais”可以指昆虫(或如他们所说的更普遍的“会飞的东西”) , 那我认为农民更可能是在说昆虫而不是鸟 。
文章图片
我不太相信我们在“farmerswithsubtitles”的图片中看到的文字和推断的单词含义之间有很强的相关性 。 我们不知道这个农民的例子是如何“偷梁换柱”的 , 而且它甚至不起作用:如果这个假设是真的 , “Apoploevesrreaitais”就对应“蔬菜” , 但它对应的却是“鸟” 。 而且由于某种原因 , 我们看到的是“vicootes”的输出 , 而不是“vicootess” 。 这看起来很似是而非 。
文章图片
令人难以置信的结果!我猜想 , 由于CLIP从未在纯语言任务上接受过训练 , 它从未被激励“不”去将胡言乱语与概念联系起来(不像Imagen中使用的常规语言模型) 。
文章图片
-所以它必须从带有文字的图像中获得语言知识 , 但由于其训练数据中只有这么多这样的图像 , 它在找到的文字之间做了某种不完整的插值 。 虽然给我们的是胡言乱语 , 但胡言乱语仍然是以特定数据为索引的 。-它的语言模型是来自CLIP , 所以问题一定是来自那个模型 。
-我的理解是 , 它只在图像上进行训练 , 对吧?它用文本描述对图像进行编码 , 但它实际上从未“看到”文本描述 , 除非图像中恰好有文本 。
-任何被索引到文本描述的图像文本(或图像文本的插值)都不会只是随机的胡言乱语 , 这很有道理 。 有趣的是它如何对语言概念本身进行索引 , 以及它将它们混合在一起的能力 。 就像人类对语言的使用一样 。
2剥其机理两位作者对DALL·E-2的词汇库做了进一步的研究 。 词汇组合性先来瞅瞅它的Compositionality(组合性) 。 从前面的例子中 , 我们知道"Apoploevesrreaitais"指“鸟类” 。 通过重复有关农民的提示的实验 , 我们还可推测“Contarraccetnxniamslurycatanniounons”表示“害虫或虫子” 。 那么一个有趣的问题就来了 , DALL·E-2能否把这两个概念组成一个句子呢?如下图所示 , DALL·E-2可以将词和短语组合成句子 , 根据"ApoploevesrreaitaiseatingContarraccetnxniamslurycatanniounons"生成了鸟类在吃虫子的图像 。 不过这种情况不是发生在所有的生成图像中 , 所以一致性并不是十分稳健 。
文章图片
风格迁移DALL·E-2能够根据提示中指定的风格 , 生成一些相关概念的图像 。 例如 , 预设我们想得到一个苹果的逼真图像 , 或苹果的线条艺术 。 要先测试单词(如Apoploevesrreaitais)是否对应于视觉概念 , 这些概念能否根据提示的上下文转化为不同的风格 。 在下图中提示有时会导致飞虫 , 而不是鸟类 。
- 索尼|三星的野心:12+256GB+6200mAh不到2000元,国产手机有对手了
- 亚马逊|Kindle中国明年停止电子书运营引热议 网友神评:真要盖泡面了
- 中移动|薅羊毛机会来了,中移动补贴红米新品手机,K50 Pro可补500元
- 索尼Xperia|降2600元收尾,索尼给中国用户放福利,4K屏旗舰不贵了
- 爱奇艺|创立 12 年、烧光 450 亿后,爱奇艺突然赚钱了
- 外媒:限制华为已是徒劳,为期3年的这场竞赛,美国输了
- 戒指|剁手党选择躺平,618已沦为鸡肋?电商三巨头有了新目标
- 智能手表|2022年的智能手表市场 - 增长更快
- 唯品会|唯品会京东集体转向,低调的618,电商大战消失了?
- 李彦宏|考不上大学没关系,别逗了!百度、腾讯等互联网大佬都是学霸。