文章图片
接下来我们会通过几篇文章整理并总结有关于python爬虫的相关知识 , 主要包括爬取网页、解析数据以及异步爬取的方法等内容 。
1.在用Python爬取数据的时候 , 我们通常用什么来爬取数据?
通常相对简单的爬取数据的方法是通过requests模块进行的 。
2.requests模块怎么用?
我们在进行爬取数据之前 , 需要先通过pycharm来安装requests模块 。
第一步 , 导入requests模块:
import requests
第二步 , 获取requests所需要的参数:
① url 。 需要爬取的网页地址
②get或者post请求 。 可以通过所需爬取的网页中的headers中的Request Method进行判断 。
③是否带有参数 。 我们同样通过所爬取的网址或者headers中是否携带参数 。
④UA伪装 。 通过headers中-User-Agent获取 。
⑤获取响应数据 。
第三步 , 爬取数据 。
以爬取豆瓣电影 Top 250该网页为例 , 我们要爬取该网页的数据 , 首先进行几个简单的参数获取:
url地址很容易获取到 , 通过查看Request Method , 我们知道该网页发送的是get请求;获取的响应类型是文本类型 , 因此代码书写如下:
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'
response=requests.get(url=urlheaders=headers).text
print(response)
【Python|Python爬虫知识梳理大全(一)!】
- 网络|看个视频被“精准”推荐商品 全国首个短视频网络爬虫案宣判!
- Python|Python或Eversheet,二者任选其一,皆可成为你失业时的救命稻草
- Java|支持中文!秒建 wiki 知识库的开源项目,构建私人知识网络
- Python|Python 3.11比3.10 快60%:使用冒泡排序和递归函数对比测试
- Python|安卓微信8.0.23内测更新:回归聊天社交,并受到马斯克称赞!
- docker|支持中文!秒建 wiki 知识库的开源项目,构建私人知识网络
- Python|Python和Java二选一该学啥?
- 腾讯|生鲜O2O创业者必学的知识点
- 微生物|python全套学习目录整理,从入门到上手,(附上自我整理的资料)
- path|小红书运营知识地图,适合0基础初学者「干货分享」