算法|危险算法“达利”,开启“图片造假”新高度( 二 )


本质上 , 与很多人工智能算法模型一样 , DALL-E就是一个模拟了大脑神经元网络的数学系统 , 它自然需要分析大量数据来学习技能 。
譬如刚才讲的牛油果茶壶 , 在识别出一颗牛油果之前 , OpenAI说 , 达利至少观摩了上千个大大小小、奇形怪状的牛油果 。 而更重要的是 , 它还需要在图像与描述图像的文字之间 , 找到一种关系模式 。
来自OpenAI的论文
事实上 , 这个系统引发人工智能研究圈讨论的关键之一 , 便在于它能够同时处理文字语言与图像 , 并且在自然语言理解与计算机视觉之间构建起更加紧密的关系 。 而此前的研究 , 的确还没有到达这样的水平 。
《MIT技术评论》给出的评价 , 一定程度上代表了学术领域对达利系统的部分态度:“虽然这些被制作的图像既超现实又呈现卡通化 , 但它们证明了 , 人工智能已经学会‘世界被组合在一起的基础逻辑’ 。 这些图像实在是令人惊叹 。 ”
这个图像输入Dalle的搜索文字是:“一辆未来汽车在雾中滑行”
不过 , 从Dalle2这个名字就能看出 , OpenAI曾在此前推出过向大众开放的第一代版本 , 然而我在试用后 , 严重怀疑第一代达利 , 可能仅仅装了一个印象派画风滤镜 。
譬如 , 当我输入“马斯克是个‘吹牛逼大王’” , 出来的都是脸部扭曲的马斯克大头照:
歪脸的马斯克
但短短2年 , 第二代达利就取得了惊人的进步 , 而这取决于算法模型的重新设计 , 因为初代版本或多或少是GPT-3的一种扩展 。
当然 , 新版本也有不少问题 。
譬如 , 输入“把艾菲尔铁塔送上月球”后 , 出现的图像仅仅是一张“夜晚下的埃菲尔铁塔” 。 所以 , OpenAI的科学家们还在输入更多数据改进它 。 另外 , 仔细观察这些生成的图像 , 你会发现一些“弱点”:
像很多刚“出生”的算法模型一样 , 达利在描绘“手脚”等细节上仍然非常吃力 。 很明显 , 宇航员的手脚 , 以及猫的爪子都有一点不自然 。
输入文字:骑着马的宇航员 。 很明显手脚细节有问题
但无论如何 , 达利都是个值得让我们赞一声“牛逼”的技术进步 。 甚至于 , 由于这波能力表现突出 , 它引发的恐慌 , 不亚于此前文字生成模型GPT3带来的文字造假争议 。
纽约时报援引亚利桑那州立大学计算机科学教授苏巴拉奥的话直言不讳:“你可以用它来做好事 , 但你肯定可以用它来做更加疯狂的事情 , 包括深度伪造的照片和视频 。 ”
没错 , 虽然工程师展示出的这些作品 , 看起来艺术创造水平非凡 , 但与所有人工智能系统的典型特征相同 , 它一定会从训练自己的大量数据属性中继承某种“偏见” 。
譬如 , 当你输入“律师” , 系统结果都是这样的:
所有律师都是男性 , 且大多看起来是白人
算法的性别与人种偏见问题 , 自诞生之日便在欧美地区争议多年 , 迄今都无法解决 , 甚至有愈演愈烈之势 。 这也是导致包括亚马逊、谷歌等公司无法大规模部署人脸识别系统的关键原因之一 。
另外 , 试想一下 , 当初在“换头”算法盛行 , 外网网友喜欢把特朗普等领导人的头像移植到某个搞笑电视剧里 , 引发捧腹大笑;而达利的出现 , 是否有能力让我们不费吹灰之力 , 便可以做到任意输出大量政治造假照片 。
甚至于 , 当输入“某某吸毒、打架斗殴”这类显然足以陷害他人 , 改变他人命运的关键词 , 如果都会出现毫无违和感的图像 , 那么会带来什么后果?
与工程师对技术的痴迷不同 , 纽约时报的读者们对达利算法的评价极为犀利 , 思考深度不可小觑 , 甚至可以说直击人类的灵魂: