模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”( 二 )


在8月初 , 团队先是进行了一个大范围的公测 , 结果反响非常热烈 , 受到大批研究者和测试用户的欢迎 。 于是 , 团队很快就在上周一正式公开发布了StableDiffusion模型 。 只要遵循OpenRAIL-M许可证的规定 , 并且不用于非法和非道德的场景 , 任何人都可以对该模型进行商业或非商业使用、改造和再发布 。
StableDiffusion并不是AI内容创作、AI艺术领域的第一个模型 , 很多人(包括前几周的硅星人)都曾以为它只是一个跟随者而已 。
然而并不是这样!
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
首先 , 和其它开放程度相似的项目(如Craiyon、DiscoDiffusion等)相比 , StableDiffusion的生成结果更为写实 , 完全不亚于DALL·E、Imagen等巨头开发的超大模型的结果 。
其它同类模型在风格上往往会选择一种 , 比如之前我们写过的TikTokAI绿幕模型 , 风格就明显更偏向油画 。 而Midjourney更像现代抽象艺术作品 。 谷歌Imagen具有明显的写实+渲染动画风格 , DALL·Emini则是一股”梗图”风 。
并且 , StableDiffusion的完全开放 , 以及在商业/非商业使用上超高的自由度 , 已经让它成为了一个“离群者”(outlier) , 和DALL·E、Imagen等封闭/半封闭产品之间 , 已经形成了一道巨大的鸿沟 。
任何人都可以不花钱 , 拷贝一份StableDiffusion的代码 , 按照自己喜欢的方式进行研究 , 并且用于处理自己需要的文字生成图片相关任务 , 甚至开发独立的应用或服务 。
事实上自从StabilityAI正式公开发布模型以来 , 已经有相当多人用它完成了自己的艺术创作 , 开发出各式各样的demo、产品 , 以及非常有趣的小项目了 。
比如下面这个由用户AnthonyCao开发的设计软件Figma插件 , 就是借助StableDiffusion的能力 , 用一句话就可以生成用户界面元素 。
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
用户XanderSteenbrugge更厉害了:他进行了大量的尝试 , 最终锁定了36条连续的文字输入提示 , 成功调教了StableDiffusion模型 , 输出了下面这样一个非常令人震撼的视频 。 他将视频取名为《穿越时空的旅行》:
视频来源:XanderSteenbrugge
上周我们还介绍过著名AI学术大佬AndrejKarpathy 。 他从特斯拉AI总监的职位离职之后 , 在自己的YouTube上开了一堂两个多小时的机器学习Python入门课 。 有趣的是 , 除了这堂课之外 , 其实他的账号上所有的视频都是他用StableDiffusion生成的 。 (当时硅星人还猜想他的下一站会不会就是加入这个项目组了 。 )
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
就连“竞品”Midjourney都整合了StableDiffusion开发了一个功能 , 让用户可以同时用两个模型整合来生成图片:
双模型合成生成结果图片来源:Allesandrochille等人创作 , AlbertoRomero组合
就这样 , StableDiffusion实现了“开源”和“高质量结果”的两全其美 , 而这在硅星人看来正是它最受关注的关键原因 。 特别是开源的属性 , 不仅打开了新的一扇AI艺术创作的大门 , 更重要的是这扇门比以往的任何门都更宽 , 门槛都更低 。
在公开版本发布的同时 , StabilityAI也上线了一个新的工具网站 , 名为DreamStudioLite 。
这个工具可以帮助更多普通用户和创意玩家 , 更加方便地使用StableDiffusion模型 。 在网页下方有一个文本框 , 用户可以直接在里面输入生成所用的提示 。 在网页右边的工具栏还可以调节图片的大小、扩散模型步骤数量、生成图片的数量等等 。 (见下图)