裁员潮|内容推荐系统:你的文章至少要先让它明白

裁员潮|内容推荐系统:你的文章至少要先让它明白

内容推荐系统:你的文章至少要先让它明白传统的搜索系统在内容推荐系统没有大规模应用之前 , 人们更多的通过搜索的方式来获取信息 。
搜索系统通常划分为两部分:离线部分和在线部分 。
离线部分其中离线部分专注于内容的搜集和处理 , 搜索引擎的爬虫系统会从海量的网站上抓取原始内容 , 并建立不同的索引 。
索引是基于关键词的序列 , 每一个关键词对应一长串内容 。
在线部分在线部分负责响应用户的搜索请求 , 完成内容的筛选和排序 , 并把最终的结果返回给用户 。
当用户输入搜索词后 , 系统会首先把你的搜索词进行分词、转换、扩充、纠错等处理 , 以便更好的理解用户的搜索意图 。
比如用户只输入一个「NBA」的关键字 , 系统会发现「NBA」和「美国职业篮球」是同义词 , 就会进行扩充 , 以便两个词都可以应用在索引的查询上 。
再比如你输入了「NAB」 , 系统会认为你的输入有误 , 会将其纠正为「NBA」 , 并返回相应的结果 。
在结果展示给用户之后 , 用户的点击反馈会影响到排序环节的模型 。
推荐系统以搜索系统为参考基础 , 可以更清晰的理解推荐系统的工作方式
推荐系统的离线部分同样需要通过各种方式获取推荐的内容 。
对于内容平台来说 , 离线系统依据推荐引擎对信息的不同理解维度 , 对这些内容进行索引化处理 。
在线部分用来量化用户的请求、完成内容的筛选和排序 。
推荐和搜索最大的差异在于:用户是否表意明确 。 因此 , 推荐系统需要尽可能的完善用户的长期画像(对哪些类目、实体词、话题) , 和短期应用场景(时间、地点) 。 这样才能在用户的每一次请求时 , 更好的揣摩用户的意图 。
当用户打开内容推荐应用的时候 , 提交给系统的信息包包括:
?时间?地理位置?网络环境?手机设备型号?登录的ID和身份信息
基于用户的ID , 推荐系统会从数据库里取出用户的画像数据 。
召回内容和排序操作与搜索系统比较相似 , 系统会基于类目的查询 , 和实体词的查询分别获得内容集合 。
值得注意的是 , 在推荐系统中 , 用户的行不仅仅像在搜索系统中那样 , 具有针对内容价值的群体评估意义 , 还具有针对用户画像的个体评估意义 。
在群体评估意义层面 , 每一个读者就像是一名陪审团成员 , 通过自己的行为来决定一篇内容的好坏 。
在个体进意义的层面 , 用户的阅读反馈在持续改造着自身的画像 。
基于推荐系统 , 自媒体内容的优化启示对于内容创作者来说 , 只有清楚自己的内容是如何抵达到用户面前的 , 才能更好的「包装」和「加工」内容 。
一篇内容能够到达用户面前 , 是因为它能被机器理解 。
一篇内容有机会扩散给更多的用户 , 则是因为它能收获用户的满意点击 。
服务于机器 , 服务于人 , 这样的内容才能在推荐系统中获得良好的分发量 。
推荐的起点:断物识人尽管内容推荐系统有着高深的算法 , 但是其基本原理是非常朴素的:更好的理解待推荐的内容 , 更好的理解要推荐的用户 , 从而高效的完成内容与人之间的对接 。
断物识人 , 是一切推荐行为的起点 。
断物想要把内容推荐给人 , 首先要明白内容的特点是什么 。
如果连待推荐内容的特点都说不明白 , 那么就妄论推荐效果了 。
更好提取和表达内容的特点 , 就是断物的意义所在 。