模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”

AI生成图片 , 最近超级火的一项尖端技术 。
火到什么程度 , 以至于已经有公司开始“套个壳”就出道了……
本周有消息曝出 , 一家创业公司WriteSonic“剽窃”了著名模型StableDiffusion , 做了一个生成图片的产品PhotosonicAI 。
这还没完 , 这家公司居然把该产品堂而皇之地发到了产品社区ProductHunt上面 , 甚至一度冲到了第二的位置……
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
StableDiffusion完全免费开源 , 所有代码都在GitHub上公开 , 任何人都可以拷贝使用——前提是需要遵循原项目采用的CreativeMLOpenRAIL-M许可证 。
然而原项目贡献者LouisCastricato却发现 , WriteSonic并没有注明使用该许可证 , 在PhotosonicAI的任何地方也没有标注技术来源 。
他对WriteSonic喊话:“希望你们在VC面前没有假装这个东西是你们自己做的 。 ”
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
目前事情还没有完全闹开 , 不过ProductHunt上已经有不少人提出了质疑 。 截至本文发出 , WriteSonic创始人尚未做出回应 。
其实 , StableDiffusion也是一周前才正式发布公开版——这次抄袭事件 , 反倒映射出这项技术到底有多火、StableDiffusion有多受欢迎 。
最近硅星人多次报道过AI图片生成技术 , 提到过DALL·E、Midjourney、DALL·Emini(现用名Craiyon)、Imagen、TikTokAI绿幕等知名产品 。
实际上 , StableDiffusion有着强大的生成能力和广泛的使用可能性 , 模型可以直接在消费级显卡上运行 , 生成速度也相当之快 。 而其免费开放的本质 , 更是能够让AI图片生成模型不再作为少数业内人士的玩物 。
在强者如云、巨头纷纷入局的AI图片生成领域 , StableDiffusion背后的“神秘”机构StabilityAI , 也像是“世外高僧”一般的存在 。 它的创始人没有那么出名 , 创办故事和融资细节也不是公开信息 。 再加上免费开源StableDiffusion的慈善行为 , 更让人增加了对这家神秘AI科研机构的兴趣 。
今天 , 我们就来深入了解一下StableDiffusion和StabilityAI , 这支在AI领域异军突起的“第三种”力量 。
消费显卡 , 秒速生成 , 完全开源StableDiffusion是一个文字转图片的生成模型 。 可以只用几秒钟时间就生成比同类技术分辨率、清晰度更高 , 更具“真实性”或“艺术性”的图片结果 。
项目开发领导者有两位 , 分别是AI视频剪辑技术创业公司Runway的PatrickEsser , 和慕尼黑大学机器视觉学习组的RobinRomabach 。 这个项目的技术基础主要来自于这两位开发者之前在计算机视觉大会CVPR22上合作发表的潜伏扩散模型(LatentDiffusionModel)研究 。
另外 , 项目也得到了一些外部开发社区 , 以及StabilityAI机构生成技术团队的支持 , 并且从DALL·E2、Imagen等巨头模型项目当中获得和整合了一些经验参考 。 项目发布的时候有专门声明对这些“竞品”项目的感谢 。
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”
文章图片
在训练方面 , 模型采用了4000台A100显卡集群 , 用了一个月时间 。 训练数据来自大规模AI开放网络项目旗下的一个注重“美感”的数据子集LAION-Aesthetics , 包括近59亿条图片-文字平行数据 。
虽然训练过程的算力要求特别高 , StableDiffusion使用起来还是相当亲民的:可以在普通显卡上运行 , 即使显存不到10GB , 仍可以在几秒钟内生成高分辨率的图像结果 。
模型开源还强大?神秘公司成了吊打巨头和学阀的AI“第三极”】模型专门面向消费级计算设备所做的优化 , 意味着更多入门级研究者、内容创作者 , 以及普通公众用户 , 都可以更加频繁接触和使用StableDiffusion , 感受AI内容生成技术的最尖端能力 , 为他们的工作和生活带来极大的便利和乐趣 。