佐治亚理工学院硕士建议：2022年你应该掌握这些机器学习算法选自towardsdatascience.com作者：

选自towardsdatascience.com
作者：TerenceShin
机器之心编译
机器之心编辑部
2022年你应该知道的所有机器学习算法。
想要成为一名合格的AI工程师，并不是一件简单的事情，需要掌握各种机器学习算法。对于小白来说，入行AI还是比较困难的。
为了让初学者更好的学习AI ，网络上出现了各种各样的学习资料，也不乏很多AI大牛提供免费的授课视频提供帮助。
近日，来自佐治亚理工学院的理学硕士TerenceShin在博客发布平台Medium撰文《2022年你应该知道的所有机器学习算法》。文中涵盖了5类最重要的机器学习算法：集成学习算法；可解释算法；聚类算法；降维算法；相似性算法。
目前， TerenceShin在Medium显示为Top1000作者，有62K关注者，目前这篇文章已经有1.4K点赞。

文章图片
2022年，你需要掌握的机器学习算法
集成学习算法
为了理解什么是集成学习算法，你首先需要知道什么是集成学习。简单来讲，集成学习是一种同时使用多个模型以获得比单个模型性能更好的方法。
【佐治亚理工学院硕士建议：2022年你应该掌握这些机器学习算法】更形象的解释，我们以一个学生和一个班级的学生为例：

文章图片
想象一下，一个学生解决一个数学问题VS一个班级学生解决相同的问题。作为班级，所有学生可以相互检查彼此的答案，并一致找出正确答案解决问题。另一方面，作为学生的个人，如果他/她的答案是错误的，那么没有其他人可以验证他/她的答案正确与否。
因此，由学生组成的班级类似集成学习算法，其中几个较小的算法协同工作以制定最终响应。
关于集成学习的更多信息请参考：https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21
集成学习算法对于回归和分类问题或监督学习问题最有用。由于其固有的性质，它优于传统的朴素贝叶斯、支持向量机、决策树等机器学习算法。集成学习的代表方法有：RandomForests、XGBoost、LightGBM、CatBoost.
可解释算法
可解释算法帮助我们识别和理解与结果有显著关系的变量。因此，与其创建一个模型来预测响应变量的值，我们可以创建可解释模型来理解模型中变量之间的关系。

文章图片
当你想要了解模型为什么做出这个决策、或者你想要理解两个或多个变量是如何相互关联的，可解释模型能够提供帮助。在实践中，解释机器学习模型能够实现的性能和机器学习模型本身一样重要。如果你不能解释一个模型是如何工作的，那么将不会有人愿意使用它。
目前基于假设检验的传统可解释模型主要包括：线性回归、逻辑回归；此外，可解释模型还包括SHAP和LIME这两种流行技术，它们被用来解释机器学习模型。
聚类算法
聚类是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

文章图片
聚类的一般过程包括数据准备、特征选择、特征提取、聚类、聚类结果评估。