参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导( 二 )

在这项研究中,作者调查了两个不同的群体——有人工智能背景和没有人工智能背景的人,他们如何看待不同类型的人工智能解释。以下是用户对AI生成的三种解释的看法:
(1)有正当理由的自然语言
(2)没有正当理由的自然语言
(3)为智能体行为提供无语境下的数字
在这项研究中,参与者观看了三个智能体在连续决策环境中的导航视频,并提供了定性和定量的感知信息——在一个满是滚动的巨石和流动的熔岩的环境中,为被困的探险者取回必须供应的食物。
智能体通过简单地输出当前状态的数字Q值执行 "思考"过程(如图1)。Q值代表智能体对每个行动的信任程度(不包含 "为什么"可信),参与者事前没有被告知这些Q值的意义,所以他们不知道哪些数值对应哪些行动。
参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图

图1:显示了智能体在任务环境中导航
实验发现,两类参与者都对数字盲目信任,但信任的程度和原因不同。作者采用"认知启发"的概念,试图理解背后的原因。他们发现,
对于有人工智能背景的参与者来说,仅仅是出现的数字就能引发启发式思考。他们不完全理解智能体决策背后的逻辑,但也会将数学表示法与逻辑算法的思维过程联系起来。有意思的是,他们还把最聪明的AI投给了“行为最奇怪”的智能体,这说明,他们不仅过度重视数字结果,而且将“含义不明”的数字视为潜在的可操作性。这里的"可操作性"指的是在判断或预测未来行为方面,人们可以用这些信息做什么。
那么,智能体在实际场景中的可操作性到底如何?正如之前所强调的,Q值不能表明决策背后的 "原因"。除了评估现有行动的质量,这些数字并没有太多可操作性。也就是说,参与者对智能体产生了过度信任和错位评估。
对于没有人工智能背景的参与者来说,即使无法理解复杂的数字也会引发启发式推理,在他们看来,智能体就一定是智能的,这些数字代表了智能体“神秘而不可理解”的独特语言。需要说明的是,这种推理方式与之前有人工智能背景的人的推理过程不同,他们假设了未来的可操作性(尽管目前缺乏可理解性)。
如我们所看到的,没有标记的、无法理解的数字反而增加了两类群体对智能体的信任和评估。这项案例研究表明,即使没有欺骗的意图,EPs也会出现未曾预料到的结果,并误导参与者对数字生成过度依赖。
需要强调的是,本次案例假设Q值的“本意”是好的,如果这些数字被操纵了,一些人利用这些隐患恶意设计黑暗模式,鉴于案例中用户对数字的启发式信任,这将会误导更多人对系统产生过度信任和不正确认知。
3

有何规避策略?
总结来看,可解释性陷阱(EPs)有两个特性,一是它仅是存在,但并不一定会对下游产生危害;二是现有知识不能预测给定的一个人工智能解释何时、如何以及为何会引发意料之外的负面下游效应。
基于以上两点,作者认为虽然我们不太可能完全消除解释的负面效应,但需要意识到“陷阱”的存在,了解它们何时容易出现,又是如何运作的,并制定相应的措施,做到防微杜渐。文中作者从研究、设计和组织三个相互关联的层面提出了几点策略: