需要注意的是urllib不能自动判断重定向 , 需要自己解析重定向的链接并重新请求 。
如果你只是爬取一般的网页 , 那么Python自带的urllib库足够用了 , 如果是想要爬取异步加载的动态网站 , requests库会方便很多 。
requests库
功能强大的爬取网页信息的第三方库 , 可以进行自动爬取HTML页面及自动网络请求提交的操作 。
requests库的主要方法:
Response对象
requests库爬取豆瓣短评示例:
爬虫案例:中国高校排名
【Python|Python爬虫 小白入门笔记汇总】
- 自媒体|自媒体,适合小白当副业,月收益50K,只是时间问题!
- Python|马云现身并当选重要职务:功劳得到肯定,阿里的天亮了
- 以太坊|618大促将至,多角度分析入手游戏本应该要注意细节!小白必看
- Python|红米Note11T突然上架,天玑8100加持,红米K50降价
- Python|字节大佬总结的最详细Python知识图谱,一目了然,轻松学Python
- Python|Python爬虫知识梳理大全(一)!
- 小米|小米嵌入式蒸烤一体机S1发布:58L超大容量 小白也能烹出大厨味
- 安卓|618大促将至,小白用户入手游戏本,这些选购细节得注意了
- 网络|看个视频被“精准”推荐商品 全国首个短视频网络爬虫案宣判!
- Python|Python或Eversheet,二者任选其一,皆可成为你失业时的救命稻草