技术壁垒这么多，AIGC 凭什么爆火？( 四 ) 公元2020年左右

提到图片生成水平，还少不了提到一个叫做「组合性」的概念。
组合性首先是指生成模型掌握从生成单个物体、到生成整个场景，再到到生成整个世界的组合能力。
如今，生成一张人脸已很简单，但若要生成一个人在草地上玩耍，甚至是生成一个街区里有一群小孩在踢足球的画面，难度便大大上升。
组合性同时也指概念的组合能力。如果用户提出了现实世界没有的、数据集中没有的要求，比如牛油果椅子，骑在马上的宇航员等等，模型如何形成画面上的自洽，也是需要攻克的技术壁垒。
盗梦师创始人蓝振忠也说，「画得好看与画得言之有物之间是有差距的」。如今的AI图像生成产品能画出梦幻绚烂的图，但仅限于静态的表现，对于动词的理解力还较差。难以描述动态画面，更别提有连续性的情节，于是便出现了「唯美插图，言之无物」的问题。
如果AIGC能攻破这个技术壁垒，生成的不仅是一张单独的插图，而是能够画大场面、有动作、多人物、有故事情节的图，甚至能变成连环画中的其中一张、或漫画中的其中一页，那么AI图像生成就必然能走向更广的消费场景。
可控性目前的AIGC ，虽已跨出了文字控制的第一步，但可控性仍不尽如人意。
在图像生成方面， prompt（输入文本提示）的探索，已让用户们足够发愁。小白用户初次玩，输入一个简短的“太阳” ，自以为已经很好理解，没想到生成出来的却是……

文章图片
小白用户这才知道， prompt没有那么容易上手，一张好图的背后，是资深创作者不厌其烦的多次尝试、加词、减字、生成……
因此，不乏有人提出， AI公司得给肝时间和精力不断调试的创作者们分成，才能让有贡献的创作者们留存下来。但有AI图像生成产品的创始人指出，现在的prompt机制的确难以掌握，但这个技术问题在未来一定会被攻克，那时候资深创作者和小白用户的差距会被缩小，玩AI绘画的门槛会一降再降。
同时，生成平台在prompt输入上也有字数限制，这是因为目前模型处理长文本的能力还有限。要在输入上继续放宽条件，便要寄希望于大模型对人类语言理解能力的发展。
可解释性1个月前， AI科技评论在某文生图平台中输入「画一辆自行车并将其在地面上滚动的部分标黄」，得到的结果是：

文章图片
而在现有的文生图平台中输入同样的文本提示，得到的结果如下：

文章图片
比起1个月以前输入这个问题得到的结果，以上图片虽然没有正确标黄，但明显生成了有条理的画面，这足以体现AIGC公司们对自家模型的快速迭代。但无法正确标出「在地面上滚动的部分」，说明AIGC仍不理解自己笔下的世界，生成图片不符合三次元逻辑的问题，仍然急需改善。
AIGC不是完全创造出一个不同的宇宙， AIGC生成的结果，需要更贴合现实生活的物理规律与逻辑，换句话说， AIGC应该在可解释性问题上做得更好，这应该是AIGC公司们共同为之奋斗的目标。
技术难题虽多，看似一片混沌， AIGC技术却依然体现出了前所未有的清晰发展道路。因为AIGC从未如此目标明确，技术问题清晰——所谓的技术壁垒，其实更应该称之为工程问题，而解决工程，不过只是时间问题。