贝叶斯深度学习:一个统一深度学习和概率图模型的框架( 二 )
文章图片
具体到模型细节 , 我们将概率图模型的变量分为三类:深度变量 , 属于深度模块 , 假设产生于比较简单的概率分布;图变量 , 属于图模块 , 和深度模块没有直接相连 , 假设它来自于相对比较复杂的分布;枢纽变量 , 属于深度模块和图模块中相互联系的部分 。
下面介绍该框架是如何在实际应用中效果 。
推荐系统推荐系统基本假设是:已知用户对某些电影的喜好 , 然后希望预测用户对其他电影的喜好 。
文章图片
可以将用户对电影的喜爱写成评分矩阵(RatingMatrix) , 该矩阵非常稀疏 , 用来直接建模 , 得到的准确性非常低 。 在推荐系统中 , 我们会依赖更多的信息 , 例如电影情节、电影的导演、演员信息进行辅助建模 。
为了对内容信息进行建模 , 并进行有效提纯 , 有三种方式可供选择:手动建立特征 , 深度学习全自动建立特征、采用深度学习自适应建立特征 。 显然 , 自适应的方式能够达到最好的效果 。
不幸的是 , 深度学习固有的独立同分布假设 , 对于推荐系统是致命的 。 因为假设用户和用户之间没有任何的关联的 , 显然是错误的 。
文章图片
为了解决上述困难 , 我们推出协同深度学习 , 能够将“独立”推广到“非独立” 。 该模型有两个挑战:
1.如何找到有效的概率型的深度模型作为深度模块 。 希望该模型能够和图模块兼容 , 且和非概率型模块的效果相同 。
2.如何把深度模块连接到主模块里 , 从而进行有效建模 。
文章图片
来看第一个挑战 。 自编码器是很简单的深度学习模型 , 一般会被用在非监督的情况下提取特征 , 中间层的输出会被作为文本的表示 。 值得一提的是 , 中间层的表示它是确定性的 , 它不是概率型的 , 和图模块不兼容 , 无法工作 。
文章图片
我们提出概率型的自编码器 , 区别在于将输出由“确定的向量”变换成“高斯分布” 。 概率型的自编码器可以退化成标准自编码器 , 因此后者是前者的一个特例 。
文章图片
如何将深度模块与图模块相联系?先从高斯分布中提出物品j的隐向量:
文章图片
然后从高斯分布中 , 提取出用户i的隐向量:
文章图片
基于这两个隐向量们就可以从另外高斯分布采样出用户i对物品j的分布 , 高斯分布的均值是两个隐向量的内积 。
文章图片
上图蓝框表示图模块 。 定义了物品、用户、评分等等之间的条件概率关系 。 一旦有了条件概率关系 , 就能通过评分反推用户、物品的隐向量 , 可以根据“内积”预测未知的背景 。
文章图片
上图是整个模型的图解 , 其中λ是控制高斯分布方差的超参数 。 为了评测模型效果 , 我们用了三个数据集:citeulike-a、citeulike-t、Netflix 。 对于citeulike是用了每篇论文的标题和摘要 , Netflix是用电影情节介绍作为内容信息 。
- 伊隆·马斯克|新媒体品牌传播专家彭正简介
- 比尔盖茨|因做空特斯拉被马斯克用苹果"男孕妇"嘲讽!比尔盖茨回应
- 刘畊宏|腾讯的传奇(三十一)纳斯达克还是香港
- 70000亿!俄罗斯、欧盟纷纷行动,“断供潮”该结束了
- 马斯克收购推特,耗资440亿美元,为了捍卫说话的权利!
- 比尔盖茨|离婚后比尔盖茨承认婚姻不忠引争议:高调谈马斯克 永远别低估他
- 伊隆·马斯克|马斯克被中国“控制”?美国病得不轻!美资金军火告急但还在硬撑
- 特斯拉二工厂,“离不开”上海
- 疯传!特斯拉要在上海建第二工厂,一年直接增产45万辆!
- 飞利浦·斯塔克|10年前,美方芯片工作者有19万,我国20万,现在情况怎样?