技术壁垒这么多,AIGC 凭什么爆火?( 四 )


提到图片生成水平 , 还少不了提到一个叫做「组合性」的概念 。
组合性首先是指生成模型掌握从生成单个物体、到生成整个场景 , 再到到生成整个世界的组合能力 。
如今 , 生成一张人脸已很简单 , 但若要生成一个人在草地上玩耍 , 甚至是生成一个街区里有一群小孩在踢足球的画面 , 难度便大大上升 。
组合性同时也指概念的组合能力 。 如果用户提出了现实世界没有的、数据集中没有的要求 , 比如牛油果椅子 , 骑在马上的宇航员等等 , 模型如何形成画面上的自洽 , 也是需要攻克的技术壁垒 。
盗梦师创始人蓝振忠也说 , 「画得好看与画得言之有物之间是有差距的」 。 如今的AI图像生成产品能画出梦幻绚烂的图 , 但仅限于静态的表现 , 对于动词的理解力还较差 。 难以描述动态画面 , 更别提有连续性的情节 , 于是便出现了「唯美插图 , 言之无物」的问题 。
如果AIGC能攻破这个技术壁垒 , 生成的不仅是一张单独的插图 , 而是能够画大场面、有动作、多人物、有故事情节的图 , 甚至能变成连环画中的其中一张、或漫画中的其中一页 , 那么AI图像生成就必然能走向更广的消费场景 。
可控性目前的AIGC , 虽已跨出了文字控制的第一步 , 但可控性仍不尽如人意 。
在图像生成方面 , prompt(输入文本提示)的探索 , 已让用户们足够发愁 。 小白用户初次玩 , 输入一个简短的“太阳” , 自以为已经很好理解 , 没想到生成出来的却是……
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
小白用户这才知道 , prompt没有那么容易上手 , 一张好图的背后 , 是资深创作者不厌其烦的多次尝试、加词、减字、生成……
因此 , 不乏有人提出 , AI公司得给肝时间和精力不断调试的创作者们分成 , 才能让有贡献的创作者们留存下来 。 但有AI图像生成产品的创始人指出 , 现在的prompt机制的确难以掌握 , 但这个技术问题在未来一定会被攻克 , 那时候资深创作者和小白用户的差距会被缩小 , 玩AI绘画的门槛会一降再降 。
同时 , 生成平台在prompt输入上也有字数限制 , 这是因为目前模型处理长文本的能力还有限 。 要在输入上继续放宽条件 , 便要寄希望于大模型对人类语言理解能力的发展 。
可解释性1个月前 , AI科技评论在某文生图平台中输入「画一辆自行车并将其在地面上滚动的部分标黄」 , 得到的结果是:
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
而在现有的文生图平台中输入同样的文本提示 , 得到的结果如下:
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
比起1个月以前输入这个问题得到的结果 , 以上图片虽然没有正确标黄 , 但明显生成了有条理的画面 , 这足以体现AIGC公司们对自家模型的快速迭代 。 但无法正确标出「在地面上滚动的部分」 , 说明AIGC仍不理解自己笔下的世界 , 生成图片不符合三次元逻辑的问题 , 仍然急需改善 。
AIGC不是完全创造出一个不同的宇宙 , AIGC生成的结果 , 需要更贴合现实生活的物理规律与逻辑 , 换句话说 , AIGC应该在可解释性问题上做得更好 , 这应该是AIGC公司们共同为之奋斗的目标 。
技术难题虽多 , 看似一片混沌 , AIGC技术却依然体现出了前所未有的清晰发展道路 。 因为AIGC从未如此目标明确 , 技术问题清晰——所谓的技术壁垒 , 其实更应该称之为工程问题 , 而解决工程 , 不过只是时间问题 。