医生|2022，谷歌、抖音和百度涌向AIGC( 二 ) 高峰|算法|电子产品

到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署，普通消费级显卡就能满足硬件要求，也可以直接输入一串网址，直接输入描述文本开始创作，这是 2021 年 DALL-E 初代发布的时候不敢想的。
不仅如此，「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。
9 月，全球最大图库盖蒂图片社（Getty Images）宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。

《太空歌剧院》，图/Jason Allen
同月，游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》，在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。
但这次获奖也引起了广泛的争论，有人认为这对其他自己创作的人不公平，「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰（Cal Duran）甚至表示，他在评分的时候根本没意识到这幅画由 AI 生成。
相比之下，百度更加务实，一开始就确定了自己「辅助」定位。 8 月，百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」，更明确定位为面向有设计需求和创意的人群，基于文心大模型智能生成多样化AI创意图片，辅助创作者的创意设计。
在技术之外， AI 生成图像还在探索如何解决版权等一系列问题。
用嘴做视频？还要再等等作为 AI 大厂， Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术，在 AI 视频生成上更是独领风骚。
Meta 在 9 月率先推出了 Make-A-Video ，言简意赅地表达了它的作用：做视频。更具体地说， Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容，尤其是文本直接生成视频，直接让视频创作的门槛大大降低，比如输入「机器人在时代广场跳舞」：

图/Meta
仅仅一周后， Google 也发布了自己的 AI 视频扩散模型 Imagen Video 。与 Make-A-Video 相比， Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768 ，帧率也能到 24 fps 了。
不过，两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题，而且与之前推出文本生成图像程序一样，谷歌和 Meta 都没有选择对外开放，这也是为什么相比 AI 画画的流行， AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。
字节也看好 AI 视频模型的未来，在抖音内就支持了「图文成片」功能，输入一段文字，软件智能匹配图片素材、添加字幕、旁白和音乐，自动生成视频。从一些创作者的反馈来看，目前「图文成片」的实现还很初级，智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。
当下 AI 生成视频在技术上显然还不够成熟，但最近几年 AI 进化速度在肉眼可见地加快，很难想象今年 AI 视频模型又会发生什么样的质变。
不管 AI 视频模型是否能在今年再度质变，就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说，「未来十年， AIGC 将颠覆现有内容生产模式，可以实现以十分之一的成本，以百倍千倍的生产速度，创造出有独特价值和独立视角的内容。」

何俊杰，图/百度
可以预期， AIGC 将是 UGC 用户生成内容出现之后，又一个内容生产的大变革，最直接的应用就是大大降低视频制作的成本和门槛，这也意味着为视频内容在供给侧的大爆发提供了技术基础。