|你看到的AI与智能无关( 四 )


对于推荐餐厅 。 每次输入的信息 , 实际并不包含决策所需要的全部信息(无法用语言表达所有相关的影响因素 , 参考Part 3 里世界模型部分);而且输出的结果是开放的 , 因为推荐的餐厅 , 既不可被量化 , 更不存在绝对的对错 。
了解CUI的特性后 , 不该用对话的就不要强上对话交互;有些使用对话成本非常高 , 又很不Robust的环节 , 同时用户价值和使用频次又很低的 , 就要考虑规避——咱们是做产品的 , 不是实现真正的AI的 , 要分清楚 。
3. 懂人:心理和语言
这可能是当前对话类产品最重要的地方 , 也是拉开和其他产品设计的核心部分 。 也可能是中年人做产品的第二春 。
对心理的理解 , 指的是当用户在说话的时候 , 对他脑中的模型的理解 。 英文中“Read the room”就是指讲话之前 , 先观察一下了解周围听众的情况 , 揣摩一下他们的心理 , 再恰当的说话 。
比如 , 讲话的时候 , 是否听众开始反复的看表?这会让直接影响对话的进程 。 你有遇到过和某人对话起来感觉很舒服的么?这个人 , 不仅仅是语言组织能力强 , 更重要的则是他对你脑中的对话进程的把握 , 以及场景模型 , 甚至对你的世界模型有把握 。 他还知道怎么措辞 , 会更容易让你接受 , 甚至引导(Manipulate)你对一些话题的放弃 , 或者是加强 。
对话系统的设计也是一样的 。 哪些要点在上文中说过?哪些类型的指代可以去模拟?如果是文字界面 , 用户会不会拉回去看之前的内容?如果是语音界面 , 用户脑中还记不记得住?如果记得住 , 还强调 , 会感觉重复;如果记不住 , 又不重复 , 会感觉困惑 。
对语言的理解 , 则是指对口语特性的理解 。 我知道Frederick Jelinek说的“每当我开除一个语言学家 , Speech识别的准确率就会增高” 。 只是 , 现在根本没有真正意义上的自然语言生成(NLG) , 因为没有真正的思维生成 。
所以 , 任务类的对话的内容 , 系统不会自然产生 , 也无法用深度学习生成 。 对于AIPM而言 , 要考虑的还是有很多语言上的具体问题 。 一个回复里 , 内容会不会太长?要点该有几个?谓语是否明确 , 用户是否清晰被告知要做什么?条件又是什么?这样的回复 , 能引发多少种可能的问询?内容措辞是否容易引起误解(比如因为听众的背景不同 , 可能会有不同的解读)?
从这个角度而言 , 一个好的对话系统 , 必定出自一个很能沟通的人或者团队之手 。 能为他人考虑 , 心思细腻 , 使用语言的能力高效 , 深谙人们的心理变化 。 对业务熟悉 , 能洞察到用户的Context的变化 , 而其格调又帮助用户控制对话的节奏 , 以最终解决具体问题 。
Part 6可见的未来是现状的延续
“过渡技术”
在几周前 , 我与行业里另一家做对话的CEO讨论行业的将来 。 当我聊到“深度学习做对话还远达不到效果”的态度时 , 他问我:“如果是悲观的 , 那么怎么给团队希望继续往前进呢?”
其实我并不是悲观的 , 可能只是更客观一点 。
既然深度学习在本质上搞不定对话 , 那么现在做对话AI的实现方式 , 是不是个过渡技术?这是一个好问题 。
我认为 , 用现在的技术用来制作AI的产品 , 还会持续很长时间 , 直到真正智能的到来 。
如果是个即将被替代或者颠覆的技术 , 那就不应该加码投入 。 如果可以预见未来 , 没人想在数码相机崛起的前期 , 加入柯达;或者在LED电视普及之前 , 重金投入在背投电视的研发上 。 而且难以预测的不仅仅是技术 , 还有市场的发展趋势 。 比如在中国 , 作为无现金支付方式 , 信用卡还没来得及覆盖足够多的支付场景 , 就被移动支付断了后路 。