网页抓取时,如何判断一个页面是导航页面,还是正文页面

【网页抓取时,如何判断一个页面是导航页面,还是正文页面】

网页抓取时,如何判断一个页面是导航页面,还是正文页面

文章插图
抓取网页时如何判断页面是导航页还是文字页?如何判断一个页面是导航页还是文本页介绍:在抓取网页时,我们通常需要的是文本内容而不是导航页内容,那么如何判断一个页面是导航页还是文本页呢?例如,http://sky.news.sina.com.cn/是一个导航页面 。