谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……( 二 )
从结构上看 , 它的所有组件只有三部分:编码器、解码器以及图像标记器 , 且都是基于标准Transformer 。
文章图片
首先 , 使用基于Transformer的图像标记器ViT-VQGAN , 将图像编码为离散的标记序列 。
然后再通过Transformer的编码-解码结构 , 将参数扩展到200亿 。
以往关于文本生成图像的研究 , 除了最早出现的GAN , 大体可以分成两种思路 。
一种是基于自回归模型 , 首先文本特征映射到图像特征 , 再使用类似于Transformer的序列架构 , 来学习语言输入和图像输出之间的关系 。
这种方法的一个关键组成部分就是图像标记器 , 将每个图像转换为一个离散单元的序列 。 比如DALL-E和CogView , 就采用了这一思路 。
另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型 , 比如DALL-E2和Imagen 。
他们摒弃了图像标记器 , 而是采用扩散模型来直接生成图像 。 可以看到的是 , 这些模型产生的图像质量更高 , 在MS-COCO零样本FID得分更好 。
文章图片
而Parti模型的成功 , 则证明了自回归模型可以用来改善文本生成图像的效果 。
与此同时 , Parti还引入并发布了新的基准测试——PartiPrompts , 用于衡量模型在12个类别和11个挑战方面的能力 。
文章图片
但Parti还是有一定的局限性 , 研究人员也展示了一些bug:
比如 , 对否定的描述就没招了~
一个没有香蕉的盘子 , 旁边一个没有橙汁儿的玻璃杯 。
文章图片
还会犯一些常识性错误 , 例如不合理地缩放 。 比如这张图 , 机器人竟然比赛车高出好几倍 。
文章图片
一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前 。 太阳落在城市景观上 。 漫画书插图 。
谷歌“自己卷自己”在这项研究来自GoogleResearch , 团队中的华人居多 。
文章图片
研究核心工作人员包括YuanzhongXu、ThangLuong等 , 目前均就职于谷歌从事AI相关研究工作 。
(ThangLuong在谷歌学术上的引用量高达20000+)
文章图片
△左:YuanzhongXu;右:ThangLuong不过有意思的是 , 同为“说句话让AI作画” , 同为出自谷歌之手的Imagen , 它跟Parti还真有点千丝万缕的关系 。
在Parti的GitHub的项目文档中就有提到:
【谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……】感谢Imagen团队 , 他们在发布Imagen之前与我们分享了其最近完整的结果 。
他们在CF-guidance方面的重要发现 , 对最终的Parti模型特别有帮助 。
文章图片
而且Imagen的作者之一BurcuKaragolAyan , 也参与到了Parti的项目中 。
(有种谷歌“自己卷自己”那味了)
不仅如此 , 就连“隔壁”DALL-E2的作者AdityaRamesh , 也给Parti在MS-COCO评价方面做了讨论工作 。
以及DALL-Eval的作者们 , 也在Parti数据方面的工作提供了帮助 。
OneMoreThing有一说一 , 就“文本生成图像”这事 , 可不只是研究人员们的宠儿 。
- 这家为AI for Science而生的新研究院,要让科研进入“安卓模式”
- 太阳能电池|新型太阳能电池光电转化效率达25%,有望应用于车辆和可折叠设备
- 摩托罗拉最近的新机比较多|摩托罗拉edge30lite首张高清渲染图曝光
- 2022中国国潮发展新动向
- 本文转自:浙江日报浙江新闻客户端 记者 方臻子6月29日是世界工业设计日(WIDD)。|什么是“设计领导力”?中国设计智造大奖主办方这样说
- 在今年6月的魅族夏日新品发布会上|魅族19主理人计划首批优秀设计作品
- 本文转自:天目新闻虽迟但到!6月30日|天目号榜单丨5月:达人“崛起”欲与媒体试比高
- 谷歌官方回应“TensorFlow遭弃”:还在投资开发,将与JAX并肩作战
- 新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
- 物流|菜鸟联手杭州机场,开辟国际货运新航线 打造国际航空智慧物流枢纽