解构电商、O2O:挖掘用户的“潜意识”-推荐系统( 三 )


根据坐标远近来判断相关度进而产生推荐的商品信息 。 由于推荐系统比一般的电商业务系统对于算法的要求要高 , 所以这里我们更多从产品维度来介绍下推荐策略和算法的一些情况 。 如果大家想深入了解一些算法可以自行研究 。
上面说到推荐策略即是判断人、商品之间的各种关系 , 关系越近则认为匹配度越高 。 那如何去判断关系的远近呢?对于这个核心的问题推荐系统也一直在进行发展演变 , 人们随着技术的提升思路也变的越来越智能化 。
在没有系统推荐的时候 , 推荐系统更多是承载人工配置商品的过程 。 通过人工设定固定商品进行推荐 , 目前在一些不具备推荐算法能力的平台依然会使用此类方法 。 这样的方式固然可以实现推荐商品 , 但效率和效果却无法让人恭维 , 于是就出现了基于内容的推荐策略 。
基于内容推荐的思路是将所有的商品、内容、人等基础实体进行标签标记 。 系统通过标记不同的商品属性特征进行分类 , 当用户进行购买时系统通过购买的商品进行判断具备相同属性或者相似属性的商品集合 , 再通过消重、过滤等规则完成最终的推荐列表 。
基于内容推荐实际上是来判断商品与商品的固定关系 , 我们以一个实例看下策略的处理方式 。 假定平台上有一个图书商品库(包括商品A、B、C三个商品) , 我们基于图书的相关信息为所有图书制定标签特征 , 包括但不限于图书名称关键词、图书作者、图书分类、图书定价、图书关键字等 。 通过标签整理我们看到三个商品的特征集为:
解构电商、O2O:挖掘用户的“潜意识”-推荐系统
文章图片
如果用户购买商品B , 则购买完成以后可以推荐商品A给用户 , 因为商品A和商品B具备相同或相似的属性(包括书名关键词、作者、分类) 。 而商品C则和商品B相差较远所以不进行推荐 。
这里面的判断规则一般是通过加权的方式来判断多个属性最终是否和购买商品的特征相似和相同 , 其中加权以及消重等规则和搜索使用的方法类似 。 特别说明下推荐策略做加权同样需要考虑词频的因素 , 一般使用的概念是TF-IDF(termfrequency–inversedocumentfrequency) 。
TF为词频即关键词在当前文本中出现的次数 , 这里包括所有特征属性 。 IDF为逆文本频率指数 , 指在所有文本属性中出现次数的倒数 。 计算方式是TFXIDF,这项指标表示我们认为在当前文本中出现的高频词是高权重的 , 但如果该关键词在所有文档出现频率也高则认为该词不具备特殊意义故而权重是很低的 。
如上表中的经济词汇如果只在当前文本特征中出现次数较高 , 则是属于高权重 。 如果在所有语料文本中都出现很多次 , 则认为他不应该是代表特定意义只是一个通用的词汇 , 权重应该降低 。
基于内容过滤规则比较简单 , 初期搭建时可以快速实现推荐功能的自动化节省人力 。 但问题也是明显的 , 首先需要通过对所有的商品构建特征标签工作量巨大 , 同时由于推荐策略的颗粒度和构建特征的多少有直接关系 , 所以会造成颗粒度过于粗糙推荐商品不准确的问题 。 如果平台本身不具备太多推荐算法的能力 , 可以通过人工配置加基于内容推荐的方式获取推荐的基本自动化能力 。
基于固定的内容无法获取更加精准的推荐商品 , 那么我们可以换个角度来看待这个问题 。 我们把从商品与商品的固定关系转变成参考人和商品、商品和商品之间的变化关系来进行推荐策略的构建 , 也即是说基于用户的行为来判断商品的关系 。
用户的行为具有复杂多变的特性 , 但不代表没有规律可循 。 常见基于用户行为的策略主要分为几种:关联规则和协同过滤 。