文章图片
【Python|Python爬虫知识梳理大全(二)!】1.数据解析有几种方法?分别是什么?
主要有三种:正则、bs4解析、xpath解析 。 他们的用法具体如下:
①通过正则解析数据:
第一步导入re函数:
import re
第二步 , 通过findall属性进行解析:
re.findall(正则表达式 , 需要解析的数据文件)
②bs4解析方法:
第一步导入函数:
from bs4 import BeautifulSoup
第二步 , 将需要解析的数据实例化:
bs=BeautifulSoup(需要解析的数据文件 , 'lxml')
第三步 , 通过find或select属性定位到需要解析的位置:
bs=bs.find('div'class_='number')
第四步 , 将文本或者对应的属性值查找出来:
bs.text
bs.a['href'
③xpath解析方法如下:
第一步 , 导入函数:
from lxml import etree
第二步 , 将数据进行实例化操作:
tree=etree.HTML(需要解析的数据文件)
第三步 , 定位到需要解析提取的位置:
tree.xpath(xpath解析的公式)
2.响应数据类型主要有几种?
主要有三种类型:分别是文本型(text)、二进制文件(content)、JSON类型 。
3.怎么爬取图片 , 具体操作步骤是什么?
第一步 , 导入requests函数:
import requests
第二步 , 发送请求 。 由于是二进制数据 , 因此响应类型为content格式:
response=requests.get(url=urlheaders=headers).content
第三步 , 保存数据:
with open('tp1.jpg''wb') as f:
f.write(response)
- 英特尔|「知识分享」开关设备应用
- Python|新手写作第3天,一篇文章收益1900元,看后你能少走20年弯路
- Python|想要主图更容易吸引顾客?颜值不能低!启中咨询教你怎么做
- django|Django知识梳理大全(十五)!
- Python|闭眼买就对了,iQOO新机发布:1999元交个朋友!
- |红火的知识付费赛道,容不下一个“思维”去上市!原因何在?
- django|Django知识梳理大全(九)!
- 京东|搞懂什么是自媒体,你才会学到真知识
- Python|费了3年心血,《PyCharm中文指南》 v2.0 版本,终于来了
- wxPython:一曲MFC的挽歌,理想主义的绝唱