余承东|Python经典机器学习的四大常用的第三方库

【余承东|Python经典机器学习的四大常用的第三方库】余承东|Python经典机器学习的四大常用的第三方库

Python编程中 , 几乎都离不开第三方库 。 更何况是入门人工智能工作 , Python是入门必备 , 第三方库特别是科学计算机器学习库就是入门中的入门 。 我们这里既然说机器学习 , 当然和深度学习是不一样的 。 所以机智客的意思是 , 对同一项工作任务 , 深度学习和机器学习两种方法不同库都能做的时候 , 我们侧重于机器学习角度 , 所以这里我们肯定不介绍Tensorflow之类的库 。 Python机器学习离不开第三方库 , 而我们常用的库 , 往往就那么几种 。 这里只介绍四个常用的第三方库 。
Pandas库 , 数据处理数据清洗的专用库 。 做机器学习或者深度学习 , 就是和数据打交道 。 那么首先数据处理是首当其冲不可或缺的 。 那么 , 就需要import基本的数据处理库 。 比如我们在做机器学习中会看到很多数据集格式是csv , 这个就可以用Pandas来处理 。 Pandas这个也是Python编程中常用得不能再常用的软件包了 。

Numpy库 。 数据分析必备 , 也是数据计算的基础 。 换言之 , 也是机器学习深度学习的前辈基石 。 这个基本不用介绍了吧 , 即便不做机器学习 , 如果接触计算机视觉的朋友 , 也知道这个大名鼎鼎的库 。 Numpy属于够底层够灵活够简单的强大机器学习库 , 或者叫矩阵计算库 , 甚至深度学习框架都以它对张量进行操作 , 从某种意义上讲 , 可能深度学习优于Numpy库的一个明显特点就是支持利用GPU硬件加速了吧 。
sk-learn库 , 基于上述的numpy和Scipy的库 。 包含大量用于传统机器学习和数据挖掘相关的算法 , 集成了常见的机器学习功能 。 从名字也能看出来 , 这是科学计算学习库 , 而且这个库还被评为用于处理复杂数据的最优秀机器学习库之一呢 。 我们在机器学习工作中几个常见的训练算法比如逻辑回归 , KNN等它都有 。 这个库 , 常用的功能就是对数据集的加载、下载或创建生成 , 要知道它本身也自带一些小的数据集 , 我们可以拿来就用 。
Matplotlib库 。 Python编程语言中最常用的数据可视化第三方库 。 它是绘图领域广泛使用的软件 , 类似MATLAB的绘图工具 , 而到了机器学习领域 , 则成了我们观察训练情况、输出数据结果、数据可视化的好帮手 。 做好了前面的数据处理 , 开始了数据训练 , 如果没有个进度或可视化展现 , 我们就往往难以把控进展 , 无法看到过程变化、验证和看到输出结果 。