萧箫整理自 KDD 2021量子位报道 | 公众号 QbitAI这年头|用上GAN的推荐算法成精了，看完视频马上刷出相关文章丨KDD 2021( 三 ) 萧箫整理自KDD2021

AFT模型具体长啥样
上文提到， AFT模型基于GAN训练框架，主要分为生成器和判别器两个部分。
如下图2 ，生成器输入用户多领域行为特征，并基于domain-specificmaskedencoder、Transformer层和Domain-specificattention ，抽取目标领域相关的用户特征，用于生成top-k虚假点击的物品（fakeclickeditems）。判别器则基于两阶段特征转移，获得用户向量，然后预测真实/虚假点击物品的得分。

文章图片
△图2：AFT具体模型，包括（a）多领域生成器和（b）多领域判别器
我们具体来看。
多领域生成器
多领域生成器旨在为用户生成每个领域上的fakeclickeditems ，其输入是某个用户在所有n个领域上的行为序列X={X_1,…,X_n} ，其中X_t是第t个领域上的行为序列特征矩阵。
不失一般性，论文假设生成器正在生成目标领域d_t上用户可能点击的物品，首先使用domain-specificmaskedencoder处理目标领域序列X_t ，随机对目标领域d_t中的行为进行mask ，如下式：

文章图片
公式表示序列中pos_t这些位置上的行为被[mask]的token替代，使得domain-specificmaskedencoder强制生成器在生成目标领域的候选物品时，会更多地考虑其它领域的用户行为。
这样虽然会丢失关键的目标领域的历史行为，导致生成器更难生成最合适的fakeclickeditems ，但也会加强跨领域历史行为和点击的特征交互，有助于多领域推荐，特别是稀疏行为的领域上的推荐效果，瑕不掩瑜。
随后，论文使用averagepooling分别聚合各个领域上（mask后）的行为序列，并基于Transformer和domain-specificattention ，得到用户在目标领域上的表示h_t如下：

文章图片
对每个候选物品e_i ，生成器计算的点击概率p为：

文章图片
论文基于生成概率p ，选择目标领域上的topk的近邻物品（剔除训练集中的真实正例），作为生成器生成的负例输入判别器。
多领域判别器
在判别器中，论文首先基于Transformer特征抽取器，获取用户在细粒度的具体行为（item）上和在粗粒度的领域（domain）上的特征表示：

文章图片
随后，团队基于知识表示学习中三元组的学习范式，设计了一个两阶段的特征转移：先基于用户在多领域的细粒度和粗粒度上的偏好，得到用户整体偏好；然后基于用户整体偏好和目标领域信息，得到用户在目标领域上的偏好。
传统的知识表示学习方法（如TransE）显式建模三元组关系。上文提到，对于（Hamlet,writer,Shakespeare）这个三元组关系， TransE认为：Hamlet+writer=Shakespeare 。
因此，用户细粒度的偏好加上用于粗粒度的偏好，应该等于用户通用领域上的全局偏好（usergeneralpreference）。基于ConvE模型（因为他能够挖掘element-wise的特征交互），对于三元组（e_h,r,e_t）有：

文章图片
类似地，在第一次特征转移中，构造了一个三元组（useritem-levelpreference,userdomain-levelpreference,usergeneralpreference），计算用户通用领域上的全局偏好u_g如下：

文章图片
在得到usergeneralpreference后，又构建了第二个三元组（usergeneralpreference,targetdomaininformation,userdomain-specificpreference），并进行第二次特征转移。这个三元组的物理含义是，用户的通用领域偏好加上目标领域的特征，约等于用户在目标领域的偏好（userdomain-specificpreference），有：

萧箫 整理自 KDD 2021量子位 报道 | 公众号 QbitAI这年头|用上GAN的推荐算法成精了，看完视频马上刷出相关文章丨KDD 2021( 三 )

萧箫整理自 KDD 2021量子位报道 | 公众号 QbitAI这年头|用上GAN的推荐算法成精了，看完视频马上刷出相关文章丨KDD 2021( 三 )