WWDC|(干货)写爬虫的你一定有类似经历

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

【WWDC|(干货)写爬虫的你一定有类似经历】WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历

文章图片

WWDC|(干货)写爬虫的你一定有类似经历


今天来给大家安利两个谷歌插件神器 , 对于一般网站足矣应对 。
场景一:
  • 找好目标网站
  • 兴高采烈的打开F12 , 观察一番
  • 查看network面板 , 抓请求 , 简简单单有json返回 , So Easy 。
  • 代码一顿噼里啪啦 , 搞定!

场景二:
  • 找好目标网站
  • 兴高采烈的打开F12 , 观察一番
  • 网站没有直接返回数据 , 而是html啥的简单 , 解析html呗 。
  • xpathcss  selector, re给我盘他 。
  • 代码一顿噼里啪啦 , 搞定!

场景三:
  • 找好目标网站
  • 兴高采烈的打开F12 , 观察一番
  • 请求只返回了js然后js动态加载到网页中 。
  • 上家伙 , seleniumpuppeteer , phanotomjs , 给我盘他 。
  • 代码一顿噼里啪啦 , 搞定!


到这里就已经能应对90%的情况了 。
但是且慢 , 你是不是还遇到过
  • 跑着跑着因为数据格式原因或者其他 , 程序运行终止了....
  • 网站的html不按套路出牌 , 正则写了半天...
  • 速度太快 , ip被封了 , 突然爬不到了...
  • 数据需要登录才能获取 , 模拟登录又是一番功夫 。
  • 即使用模拟浏览器 , 依然获取不到数据 。

其实写爬虫就像回合制游戏 , 你一直面对这个boss用各种办法升级你的爬虫 , 最后搞定他 。

A:网站B:你
  • B:请求网站失败
  • B:数据解析有问题
  • B:分析哪里有问题 , 爬的过程有问题 , 还是洗的过程有问题(不断反复调试 , 直到ok为止)
  • B:速度太慢 , 上多线程 , 协程 。
  • A:速度太快 , 被干掉 。
  • B:上代理 , 代理呢免费的又层次不齐 , 是不是要考虑整个代理池 , 付费的又没钱 。
  • 最后就是程序的健壮性问题 , 还有根据一些功能定制化了 。
大致流程应该就是这样了 , 有说错的我也不管了~
那有没有什么好的插件可以帮帮我呢 , 毕竟我只是想要简单爬点数据呀!!!!