这里还需要提一下,在实际的应用中,BM25 模型会更多,和TF -IDF的差异在于有很多因子可以调节:文章的长短递减参数(文章越长、词频叠加分数递减)、各种经验参数的平滑等等,因此千万不要死杠数值,而是要理解逻辑和积累经验。
2.TextRank算法。想象一下这样的一个段落:「1月20日下午,赵老师与加玮在数字营销方面展开了讨论,赵老师面色红润,讨论得十分开心。这次关于数字营销的讨论结束后,赵老师还给群友发了红包。」 如果按照TF – IDF来计算,这段里面提取的重点词是赵老师(出现了3次),其次是讨论(出现3次)。
显而易见,用这两个关键词很难说全面的代表了段落的主题。如果按照TextRank的算法,数字营销将会成为最为关联的关键词。这是因为词频最高的关键词「赵老师」和「讨论」的紧密的上下文中,出现了2次「数字营销」。我们理解这个例子的意思即可,也就是说,如果我们希望“数字营销”的排名分数更高,不仅仅要有比较高的数字营销的词频(IDF值无法控制),还要在其他的主题,比如在例句中是“赵老师”和“讨论”,让这些主题词的词频也比较高,然后将数字营销的词,与“赵老师”这样的词,形成一个上下文关系。
文章插图
【图:tf-idf 和textRank算法在内容SEO化中的应用】
1.我们核心的业务关键词或者需求词,多重复几遍。可以多次充当宾语或者主语,来自然的加强词频,尽管有时候可能看起来有一点啰嗦,但是有用。—— tf idf
2.注意上下文关系,如果一个内容频繁的出现,比如是某次峰会或者沙龙的主题,那我们的核心关键词就要在这个频繁出现的关键词的上下文(词语的前后、句子的前后)中尽可能多出现几次。- textRank
那么这两个算法要如何应用呢?定性的说。
1.我们核心的业务关键词或者需求词,多重复几遍。可以多次充当宾语或者主语,来自然的加强词频,尽管有时候可能看起来有一点啰嗦,但是有用。
2.注意上下文关系,如果一个内容频繁的出现,比如是某次峰会或者沙龙的主题,那我们的核心关键词就要在这个频繁出现的关键词的上下文(词语的前后、句子的前后)中尽可能多出现几次。
定性的部分就到这里了,具体出现几次?哪个位置才算上下文?关键词的分词应该怎么处理?可以在实战中通过积累经验去持续提升。限于时间原因就不展开了。
三、利用社交货币和平台特性
文章插图
第二部分:社交媒体杠杆
- 社交媒体重点不在”媒体“在“社交”
- 你让ta分享,考虑过ta分享的动机吗?
- 如何利用好5种社交货币
- 如何把内容适配不同的社交平台
把“社交媒体”作为内容杠杆放大的重点有两个。第一个是《疯传》里面提到的“社交货币”的概念,它决定了一个内容究竟能走多远:别人会分享它吗?会哪儿,多少次?他的朋友看到了会再次分享吗?如果用一个指标来衡量,在公众号的后台,“分享阅读占比”能否超过30%甚至是50%?
- 用户|「你将购买的是虚拟内容服务,购买后不支持退订」,真的合理么?
- 公司|离职报告多写3个字赔公司2.9万引热议:网上下载的模板
- 炒股|中信建投回应老太杠杆炒股倒欠千万 为老年人开立两融账户合理吗?
- 2022年河北普通专升本考试内容!
- 本文转自:泉州网络电视台文|五一对于全人类来说|嫦娥五号带来惊喜发现!1吨月壤约有12克水,主要有3个来源
- 专项|抖音直播:专项治理“占卜、算命、塔罗”等迷信伪科学内容
- 3个月工资增加50%?付费课程并没有那么神奇
- 炒股|7旬老太加杠杆炒股倒欠券商千万 跌破平仓线回天无力:官方称不实情况
- iPhone|强烈不建议买64GB iPhone的3个理由,过来人:真的淘汰了
- 股市|每月1万退休金 独居老人杠杆3千多万炒股爆仓!倒欠券商千万