物品|对话推荐系统的进展与五个关键挑战( 三 ) 智能制造|国际联盟|国立大学

特殊能力(Special ability: suggesting, negotiating, and persuading)
除了偏好识别和推荐，还有各种各样的任务需要CRS具有不同的能力。这些能力都是高级需求。例如，当用户询问“Nissan GTR Price”，系统能够提供一些建议帮助yoghurt完成一个任务，比如"How muchdoes it cost to lease a Nissan GT-R?".这些问题建议可以使用户带来各种各样的未来结果的沉浸式搜索体验。Lewis等人在2017年提出一个能和用户进行谈判的系统。他们将问题建模为分配问题：物品需要分配给两人，每个物品对于每个人的价值不同。两人进行谈判，达成一个分配的协议。

Dialogue understanding and generation
对话理解
大部分CRS主要关注的是核心的推荐逻辑和多轮对话技巧，它们难以从原始对话中提出用户意图，它们需要预处理的结构化的输入，如打分、YES/NO问题。而实际情况，用户的回答或提问往往多种多样。对话理解方法有槽填充(Slot filling)，和意图识别。槽填充(Slot filling)事先设定意图，使用模型根据用户输入填写模板的相应空值。意图识别常用神经网络从用户的对话中提取情感。
Response generation
CRS生成的回答至少要满足两个层次的要求。低层次的要求是生成的回答合适且正确；高层次的要求是生成的回答包含推荐物品有价值的信息。主要分为Retrieval-based Methods和Generation-based Methods
Retrieval-based Methods
基于抽取的方法主要做法是从候选回答中挑选合适的作为回答。问题被建模成用户问题和候选回答的匹配问题。一种方法是，使用神经网络分别学习用户问题和候选答案的表示，然后通过一个打分函数，得到两者的匹配程度；另一种方法是，先融合两者的表示，然后通过模型学习两者的深层关系。两种方法各有利弊，前者实现更高效，更适合线上部署；后者更有效，因为匹配信息被深层次的挖掘。

Generation-based Methods
基础的生成模型是RNN，能够输入问题，逐个单词生成回答。相较于基于抽取的方法，基于生成的方法有以下挑战：
1，生成的答案可能不是有正确语法的语句。
2，人们容易区分出机器生成的语言和人类生成的语言，因为机器缺乏基本的常识、情感等。
3，模型倾向于生成安全回答，也就是一些放之四海皆准的回答，如"OK";4，如何评价生成的回答。对于CRS，生成的回答需要包含推荐物品。
Incorporating recommendation-oriented information
使用端到端框架的CRS的主要缺点是，只有在训练过程中出现的物品才会被推荐。因此，模型性能被训练数据的质量严重限制。为此，Chen等人在2019年提出将领域知识图谱融入到推荐系统中，一方面可以帮助推荐系统从知识图谱中提取信息，另一方面，可以帮助对话系统生成识别出与物品相关的词汇，生成更连续和可解释的回答。
另外还有些研究者尝试增加回答的多样性和可解释性，比如前面提到的多话题学习模型。

Exploration-exploitation trade-offs
Exploration-Exploitation (E&E) trade-off主要被用于解决CRS的冷启动问题，通过Exploitation，系统返回最流行的选择；通过探索，模型尝试搜集一些未知选项的信息。MAB多臂机算法是E&E一个经典算法，主要用来改善模型的推荐效果。
多臂机介绍
多臂机问题来源于赌博。老虎机有K个摇臂，每个摇臂以一定的概率吐出金币，且概率是未知的。玩家每次只能从K个摇臂中选择其中一个，且相邻两次选择或奖励没有任何关系。玩家的目的是通过一定的策略使自己的奖励最大。用户可以选择当前具有最大平均奖励的摇臂，或者冒险尝试另一个摇臂。