TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了( 二 )


GPT-3也完全没令人失望 , 在小范围开放测试API之后 , 外界人士用它开发出了各种各样神奇的demo , 展示了写段子、翻译公式、解数学题、完成用户界面设计、生成财务报表等能力 。
“AI文字生成图片”也是这些能力的其中一项 。
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
包括OpenAI、谷歌、Midjourney、StabilityAI等一众大小公司 , 已经开发出了多个文字转图片生成模型 , 展示出神经网络模型具备令人惊讶的艺术创作能力 。
从AI文字转图片生成技术开始得到公众关注 , 到今天各路大厂和小公司挤破头也要掺和 , 各种不开放的、开放的、收费和免费的模型层出不穷……也就过去了一年左右的时间 。
在这些模型当中 , OpenAI的DALL·E是最著名的一款 。 该模型一代于2021年推出 , 今年刚刚更新到了二代 。 用户只需提供自然语言描述 , 模型就能够生成非常写实(photorealisitic)的图片 。
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
除了从零开始生成全新照片 , DALL·E2还有更多功能 , 适合现实中多种艺术工作场景 。
比如它的编辑能力 , 可以在一张已经存在的照片中 , 在用户任选的位置“删除”或者“添加”物体 , 并且编辑后的效果仍然很写实:
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
再比如DALL·E2还具备“启发”的能力 , 能够根据一张已经给定的图片 , 生成风格近相同的新照片:
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
顺便一提:有个跟OpenAI没关系的第三方开发者 , 自己仿着DALL·E做了一个图片生成模型 , 还给免费开放了 , 取名为DALL·Emini 。
结果这个“仿制品”比正品还受欢迎 , 在社交网络Twitter上专门搬运这个模型生成的奇怪图片的账号 , 粉丝量都破了百万 。 甚至逼得OpenAI专门出来澄清跟它没关系 , 要求开发者做出改变 。 现在这个免费小工具已经改名为Craiyon了 。
(听说此事之后 , 粉丝们还做了一张梗图 , 嘲笑OpenAI那边还在控制测试权限 , 这边DALL·Emini早就给全网玩嗨了……)
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
而在硅谷大厂的行列当中 , 现在谷歌是已知动作最快的 , 在DALL·E2出来不久后也发布了自己的模型 , 名为Imagen 。
就像DALL·E的根源是语言超大模型GPT-3 , Imagen的根源也是谷歌开发的泛用型超大语言模型T5 。 至于Imagen的这个命名 , 其实是图片(image)+生成(generate)的混成词 。
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
虽然做的比DALL·E晚 , 同样作为硅谷知名AI研究型公司的谷歌 , 还是非常不服OpenAI的 , 宣称找人做了一堆同类模型的盲测 , 结果是受试者更喜欢Imagen生成的结果 , 认为其在“生成质量”和“文字描述还原度”上都更胜一筹 。
——当然 , 究竟是DALL·E2和Imagen谁的生成结果更好 , 还是一个很主观的 , 见仁见智的事情 。 在技术实现上 , 这两家其实大同小异 , 都是用了Diffusion(扩散)模型生成 , 然后再用Super-Resolution(超分辨率)技术来让生成结果更加清晰 。
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
文章图片
还有更多规模更小的新创公司也在做AI图片生成和艺术创作这件事 。