WWDC|(干货)写爬虫的你一定有类似经历

2022-06-07 苹果 Apple Watch WWDC

文章图片

【WWDC|(干货)写爬虫的你一定有类似经历】

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

今天来给大家安利两个谷歌插件神器，对于一般网站足矣应对。

场景一：

找好目标网站
兴高采烈的打开F12 ，观察一番
查看network面板，抓请求，简简单单有json返回， So Easy 。
代码一顿噼里啪啦，搞定！

场景二：

找好目标网站
兴高采烈的打开F12 ，观察一番
网站没有直接返回数据，而是html啥的简单，解析html呗。
xpathcss selector， re给我盘他。
代码一顿噼里啪啦，搞定!

场景三：

找好目标网站
兴高采烈的打开F12 ，观察一番
请求只返回了js然后js动态加载到网页中。
上家伙， seleniumpuppeteer ， phanotomjs ，给我盘他。
代码一顿噼里啪啦，搞定!

到这里就已经能应对90%的情况了。

但是且慢，你是不是还遇到过

跑着跑着因为数据格式原因或者其他，程序运行终止了....
网站的html不按套路出牌，正则写了半天...
速度太快， ip被封了，突然爬不到了...
数据需要登录才能获取，模拟登录又是一番功夫。
即使用模拟浏览器，依然获取不到数据。

其实写爬虫就像回合制游戏，你一直面对这个boss用各种办法升级你的爬虫，最后搞定他。

A:网站B:你

B:请求网站失败
B:数据解析有问题
B:分析哪里有问题，爬的过程有问题，还是洗的过程有问题(不断反复调试，直到ok为止)
B:速度太慢，上多线程，协程。
A:速度太快，被干掉。
B:上代理，代理呢免费的又层次不齐，是不是要考虑整个代理池，付费的又没钱。
最后就是程序的健壮性问题，还有根据一些功能定制化了。

大致流程应该就是这样了，有说错的我也不管了~
那有没有什么好的插件可以帮帮我呢，毕竟我只是想要简单爬点数据呀!!!!

上一篇：|巨头激战本地生活，美团王兴腹背受敌

下一篇：京东|盛夏有约精“樱”荟萃！栖霞大樱桃电商节开启