医生|2022,谷歌、抖音和百度涌向AIGC( 二 )


到现在「AI 画师」已经可以走入千家万户 。 用户可以在本地部署 , 普通消费级显卡就能满足硬件要求 , 也可以直接输入一串网址 , 直接输入描述文本开始创作 , 这是 2021 年 DALL-E 初代发布的时候不敢想的 。
不仅如此 , 「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业 。
9 月 , 全球最大图库盖蒂图片社(Getty Images)宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图 。 盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品 。

《太空歌剧院》 , 图/Jason Allen
同月 , 游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》 , 在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖 。
但这次获奖也引起了广泛的争论 , 有人认为这对其他自己创作的人不公平 , 「这就跟为什么我们不让机器人参加奥运会的原因完全一样 。 」参加评审的艺术家杜兰(Cal Duran)甚至表示 , 他在评分的时候根本没意识到这幅画由 AI 生成 。
相比之下 , 百度更加务实 , 一开始就确定了自己「辅助」定位 。 8 月 , 百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」 , 更明确定位为面向有设计需求和创意的人群 , 基于文心大模型智能生成多样化AI创意图片 , 辅助创作者的创意设计 。
在技术之外 , AI 生成图像还在探索如何解决版权等一系列问题 。
用嘴做视频?还要再等等作为 AI 大厂 , Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术 , 在 AI 视频生成上更是独领风骚 。
Meta 在 9 月率先推出了 Make-A-Video , 言简意赅地表达了它的作用:做视频 。 更具体地说 , Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容 , 尤其是文本直接生成视频 , 直接让视频创作的门槛大大降低 , 比如输入「机器人在时代广场跳舞」:

图/Meta
仅仅一周后 , Google 也发布了自己的 AI 视频扩散模型 Imagen Video 。 与 Make-A-Video 相比 , Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768 , 帧率也能到 24 fps 了 。
不过 , 两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题 , 而且与之前推出文本生成图像程序一样 , 谷歌和 Meta 都没有选择对外开放 , 这也是为什么相比 AI 画画的流行 , AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像 。
字节也看好 AI 视频模型的未来 , 在抖音内就支持了「图文成片」功能 , 输入一段文字 , 软件智能匹配图片素材、添加字幕、旁白和音乐 , 自动生成视频 。 从一些创作者的反馈来看 , 目前「图文成片」的实现还很初级 , 智能匹配和生成视频两个环节都很难真正在视频生产环节中使用 。
当下 AI 生成视频在技术上显然还不够成熟 , 但最近几年 AI 进化速度在肉眼可见地加快 , 很难想象今年 AI 视频模型又会发生什么样的质变 。
不管 AI 视频模型是否能在今年再度质变 , 就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说 , 「未来十年 , AIGC 将颠覆现有内容生产模式 , 可以实现以十分之一的成本 , 以百倍千倍的生产速度 , 创造出有独特价值和独立视角的内容 。 」

何俊杰 , 图/百度
可以预期 , AIGC 将是 UGC 用户生成内容出现之后 , 又一个内容生产的大变革 , 最直接的应用就是大大降低视频制作的成本和门槛 , 这也意味着为视频内容在供给侧的大爆发提供了技术基础 。