Python|Python爬虫知识梳理大全（二）！ Python

文章图片

【Python|Python爬虫知识梳理大全（二）！】1.数据解析有几种方法？分别是什么？
主要有三种：正则、bs4解析、xpath解析。他们的用法具体如下：
①通过正则解析数据：
第一步导入re函数：
import re
第二步，通过findall属性进行解析：
re.findall(正则表达式，需要解析的数据文件)
②bs4解析方法：
第一步导入函数：
from bs4 import BeautifulSoup
第二步，将需要解析的数据实例化：
bs=BeautifulSoup(需要解析的数据文件， 'lxml')
第三步，通过find或select属性定位到需要解析的位置：
bs=bs.find('div'class_='number')
第四步，将文本或者对应的属性值查找出来：
bs.text
bs.a['href'

③xpath解析方法如下：
第一步，导入函数：
from lxml import etree
第二步，将数据进行实例化操作：
tree=etree.HTML(需要解析的数据文件)
第三步，定位到需要解析提取的位置：
tree.xpath(xpath解析的公式)

2.响应数据类型主要有几种？
主要有三种类型：分别是文本型（text）、二进制文件（content）、JSON类型。
3.怎么爬取图片，具体操作步骤是什么？
第一步，导入requests函数：
import requests
第二步，发送请求。由于是二进制数据，因此响应类型为content格式：
response=requests.get(url=urlheaders=headers).content
第三步，保存数据：
with open('tp1.jpg''wb') as f:
f.write(response)