公众号可被搜索引擎抓取,微信要更“互联互通”

微信公众号的内容只能在微信中看 , 这可以说早在多年前就已经成为用户的共识 。 不过最近有消息显示 , 微信公众号的内容可以被谷歌和必应等搜索引擎搜索到 , 难道这意味着微信公众号要冲出国门 , 走向世界?
公众号可被搜索引擎抓取,微信要更“互联互通”
文章图片
但腾讯方面很快就给出了回应 , 并表示是因为近期平台技术升级 , 公众号的robots协议出现了漏洞 , 致使外部爬虫技术可抓取部分公众号内容 , 但目前漏洞已修复 。 按照这一说法 , 这一次的情况只是技术操作失误 。
那么 , 导致公众号内容出现在海外搜索引擎山上的“元凶”robots协议是什么呢?事实上 , robots协议也叫robots.txt , 是一种存放于网站根目录下的ASCII编码文本文件 , 它的唯一作用就是告诉搜索引擎的user-agent(网络蜘蛛) , 网站中的哪些内容是不对搜索引擎蜘蛛开放 , 哪些内容又可以被抓取的 。
公众号可被搜索引擎抓取,微信要更“互联互通”
文章图片
作为控制网站被搜索引擎抓取内容的一种策略 , 该文件一般会放在网站的根目录里 , 也就是/robots.txt 。 因此可以直接在网站域名后加上/robots.txt , 就能访问到该网站的robots协议页面 。
我们以淘宝的“https://www.taobao.com/robots.txt”为例可以看到 , 这家电商网站采用的robots协议其实非常简单 , “User-agent”主要作用是告诉网站服务器 , 访问者是通过什么工具来请求的 , 而后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎蜘蛛 , 而最后的“Disallow:/” , 按照robots协议的规则 , 是禁止被描述的搜索引擎蜘蛛(百度)访问网站的任何部分 。
公众号可被搜索引擎抓取,微信要更“互联互通”
文章图片
其实早在2008年9月百度搜索引擎就已经被淘宝屏蔽 , 而这几行简简单单的代码 , 也让淘宝在战略层面掌握了竞争的主动权 , 避免了流量被百度搜索引擎拿走 , 同时也避免了平台内的商家要给百度竞价排名付费的可能 , 更是间接催生了淘宝的竞价排名体系 。
而对于微信来说同样也是如此 , 此前微信公众号的内容只支持在该应用的搜一搜功能 , 或是腾讯旗下的搜狗搜索引擎中搜索到 。 这主要要因为用户上网冲浪的最终目地往往是消费内容 , 而内容、特别是高质量的原创内容更是天然的流量来源 , 这些内容可以帮助微信形成封闭的商业生态 。 所以让用户只能在体系内访问微信公众号的内容 , 也就成为了微信保护私域流量的关键 。
那么问题就来了 , robots协议会出现漏洞吗?答案是肯定的 。 robots协议从本质上来说就是网站运营方提供的规则 , 然而是规则就免不了出现漏洞 。 不过robots协议也很难出现问题 , 因为它的书写非常简单、逻辑也很直白 , 允许什么搜索引擎爬虫访问什么内容都可以清晰地表述出来 。 特别是微信这种协议非常简单的规则 , 仅面向自己的应用内搜索和搜狗搜索开放的robots协议 , 基本也不会有什么多余的内容 。
公众号可被搜索引擎抓取,微信要更“互联互通”
文章图片
更为重要的一点是 , robots协议本身其实是一个“君子协议” , 是一个搜索引擎与网站之间的共识 , 并没有任何法律效力 , 也没有任何技术约束 。 所以换句话来说 , 这也意味着robots协议从技术层面是无法与搜索引擎爬虫对抗的 。
公众号可被搜索引擎抓取,微信要更“互联互通”
文章图片
例如 , 一些网站如果不想让爬虫占据自家宝贵的服务器资源 , 往往就会直接在robots.txt文件中写上这样的规则 , “User-agent:Googlebot , Allow:/User-agent:* , Disallow:/” , 意思是本网站仅允许谷歌爬虫抓取 , 拒绝其他任何搜索引擎 。