模型开源还强大？神秘公司成了吊打巨头和学阀的AI“第三极”( 二 ) AI生成图片

在8月初，团队先是进行了一个大范围的公测，结果反响非常热烈，受到大批研究者和测试用户的欢迎。于是，团队很快就在上周一正式公开发布了StableDiffusion模型。只要遵循OpenRAIL-M许可证的规定，并且不用于非法和非道德的场景，任何人都可以对该模型进行商业或非商业使用、改造和再发布。
StableDiffusion并不是AI内容创作、AI艺术领域的第一个模型，很多人（包括前几周的硅星人）都曾以为它只是一个跟随者而已。
然而并不是这样！

文章图片
首先，和其它开放程度相似的项目（如Craiyon、DiscoDiffusion等）相比， StableDiffusion的生成结果更为写实，完全不亚于DALL·E、Imagen等巨头开发的超大模型的结果。
其它同类模型在风格上往往会选择一种，比如之前我们写过的TikTokAI绿幕模型，风格就明显更偏向油画。而Midjourney更像现代抽象艺术作品。谷歌Imagen具有明显的写实+渲染动画风格， DALL·Emini则是一股”梗图”风。
并且， StableDiffusion的完全开放，以及在商业/非商业使用上超高的自由度，已经让它成为了一个“离群者”(outlier) ，和DALL·E、Imagen等封闭/半封闭产品之间，已经形成了一道巨大的鸿沟。
任何人都可以不花钱，拷贝一份StableDiffusion的代码，按照自己喜欢的方式进行研究，并且用于处理自己需要的文字生成图片相关任务，甚至开发独立的应用或服务。
事实上自从StabilityAI正式公开发布模型以来，已经有相当多人用它完成了自己的艺术创作，开发出各式各样的demo、产品，以及非常有趣的小项目了。
比如下面这个由用户AnthonyCao开发的设计软件Figma插件，就是借助StableDiffusion的能力，用一句话就可以生成用户界面元素。

文章图片
用户XanderSteenbrugge更厉害了：他进行了大量的尝试，最终锁定了36条连续的文字输入提示，成功调教了StableDiffusion模型，输出了下面这样一个非常令人震撼的视频。他将视频取名为《穿越时空的旅行》：
视频来源：XanderSteenbrugge
上周我们还介绍过著名AI学术大佬AndrejKarpathy 。他从特斯拉AI总监的职位离职之后，在自己的YouTube上开了一堂两个多小时的机器学习Python入门课。有趣的是，除了这堂课之外，其实他的账号上所有的视频都是他用StableDiffusion生成的。（当时硅星人还猜想他的下一站会不会就是加入这个项目组了。）

文章图片
就连“竞品”Midjourney都整合了StableDiffusion开发了一个功能，让用户可以同时用两个模型整合来生成图片：
双模型合成生成结果图片来源：Allesandrochille等人创作， AlbertoRomero组合
就这样， StableDiffusion实现了“开源”和“高质量结果”的两全其美，而这在硅星人看来正是它最受关注的关键原因。特别是开源的属性，不仅打开了新的一扇AI艺术创作的大门，更重要的是这扇门比以往的任何门都更宽，门槛都更低。
在公开版本发布的同时， StabilityAI也上线了一个新的工具网站，名为DreamStudioLite 。
这个工具可以帮助更多普通用户和创意玩家，更加方便地使用StableDiffusion模型。在网页下方有一个文本框，用户可以直接在里面输入生成所用的提示。在网页右边的工具栏还可以调节图片的大小、扩散模型步骤数量、生成图片的数量等等。（见下图）