Python|Python爬虫知识梳理大全(二)!

Python|Python爬虫知识梳理大全(二)!

文章图片

Python|Python爬虫知识梳理大全(二)!


【Python|Python爬虫知识梳理大全(二)!】1.数据解析有几种方法?分别是什么?
主要有三种:正则、bs4解析、xpath解析 。 他们的用法具体如下:
①通过正则解析数据:
第一步导入re函数:
import re
第二步 , 通过findall属性进行解析:
re.findall(正则表达式 , 需要解析的数据文件)
②bs4解析方法:
第一步导入函数:
from bs4 import BeautifulSoup
第二步 , 将需要解析的数据实例化:
bs=BeautifulSoup(需要解析的数据文件 , 'lxml')
第三步 , 通过find或select属性定位到需要解析的位置:
bs=bs.find('div'class_='number')
第四步 , 将文本或者对应的属性值查找出来:
bs.text
bs.a['href'

③xpath解析方法如下:
第一步 , 导入函数:
from lxml import etree
第二步 , 将数据进行实例化操作:
tree=etree.HTML(需要解析的数据文件)
第三步 , 定位到需要解析提取的位置:
tree.xpath(xpath解析的公式)

2.响应数据类型主要有几种?
主要有三种类型:分别是文本型(text)、二进制文件(content)、JSON类型 。
3.怎么爬取图片 , 具体操作步骤是什么?
第一步 , 导入requests函数:
import requests
第二步 , 发送请求 。 由于是二进制数据 , 因此响应类型为content格式:
response=requests.get(url=urlheaders=headers).content
第三步 , 保存数据:
with open('tp1.jpg''wb') as f:
f.write(response)