生成|用企鹅做出的炸鸡什么样?“毕加索”给出了答案( 二 )
文章插图
还可以生成“横截面图”,这西瓜让AI切的稀碎:
文章插图
其他的功能还有很多,例如“推理背景细节”,给出一个大概的方向让AI补充画面。像是“早晨,一只水豚坐在森林里的画”,AI会根据关键词,推断光线一类的需求,然后生成不同风格的“画”这个结果,看效果确实艺术极了:
文章插图
而我最喜欢的是“合并不相关的概念”。通常来说,我们组合一个词汇都是用于描述真实存在的事物,例如木质的桌子。不过好玩的是,DALL·E可以将不同概念的对象“强行”缝合,创造出新的东西,举个例子,设置由“蜗牛”组成的“汉堡”,于是就出现了汉堡蜗牛:
文章插图
感觉类似的生成方式,很适合做设计。下图的关键词是,一个“冰川”“形式”的“茶壶”:【 生成|用企鹅做出的炸鸡什么样?“毕加索”给出了答案】
文章插图
更进一步还可以制作“脑洞插画”,“皮卡丘”“穿着西装”“擤鼻涕”:
文章插图
“动物与动物之间的嵌合体”,用“长颈鹿”组成的“鸡”:
文章插图
还有神话中的不太好想象的“猫龙”,在AI眼里,竟然是长成这样的:
文章插图
DALL-E,是什么?如果你对去年的GTP-3有印象,就能更简单的理解DALL·E。对,GTP-3就是那个给一些词或者句子,就能够自己写文章的那个AI。
文章插图
这次的DALL·E也是类似的功能,只不过变成给文字生成图片了。其本质跟GPT-3一样,还是变压器语言模型。在GTP-3那里,变压器是从“文字到文字”,这个DALL·E则更进一步,变成了“文字到图片”。
文章插图
是不是很神奇?那么,这个AI又是如何做到的呢?根据DALL·E创造者OpenAI的介绍,实现这个DALL·E,有两个关键的核心。第一个,是接收数据流进行训练。DALL·E会接收图像和文字所组合的数据流,在模型训练之前,需要对数据进行预处理,一次接受后,会用到1280个标记,其中256个用于标记文本,1024个用于标记图像。
文章插图
之后,便是对这些数据进行自回归建模,这时候,DALL·E使用了一种名为“自注意力层”以及其中的“注意遮罩”。怎么理解这个概念呢?大家可以回想一下,平时你在聚精会神地观察某个东西的时候,是不是会忽略周围的东西,这时候,你的注意力都集中在那个事物上?
文章插图
是的,在AI上,也有类似的概念:注意力机制。简单来说,就是用算法,让AI可以在不同外界需要下去选择性地观察,找出最有用的点。不同的算法得出的不同结果,就类似于咱们对同一事物的不同聚焦点,正如诗云“横看成岭侧成峰”。而在“自注意力”上,其实与注意力,只差了一个字,它是后者的一种变体。二者的区别,就是“自注意力”减少了对外部信息的依赖,在原本就具有的“注意力”分析上,更侧重于分析数据流内部各标记的相关性。
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 小米科技|预算只有两三千买这三款,颜值性能卓越,没有超高预算的用户看看
- AMD|AMD预告新款Radeon Pro专业卡:第一次用上6nm工艺
- 东南亚|MIUI13深度使用报告,这还是我认识的MIUI吗?网友评价很真实
- 小米 11 Ultra 内测 NFC“读写勿扰”与“解锁后使用”功能
- 5G|华为利用5G毫米波发现园区入侵者,这让美国5G联盟情何以堪
- 打脸!华为在美国,用专利把英特尔、苹果、微软、高通打败了
- 智能手机|全球第17位!App Annie报告:2021年中国人均每天用手机3.3小时
- 我们的生活|社交正在推动“孤独生意”多元化发展,天聊将重塑用户精神世界!
- 微信|数亿用户没白等,微信迎来更新,张小龙终于干正事了