欢迎来到走进高维空间系列的第五部分|走进高维空间之“维度魔咒”，所有的“邻居”都去哪了？欢迎来到

文章图片
欢迎来到"走进高维空间系列"的第五部分，在这里我们将探索高维空间的一些奇怪和反直觉的奇观。距离高维空间系列第四部分：”走进高维空间——概率论与高维空间的深层次联系“已经有一年多了。在阅读第五部分之前，我建议先浏览以下前四部分内容。
简单回顾以下前四部分的内容：
第一部分我们得出：在无限维空间中球体的体积都集中在边界上，我们只能知道这个结论，但是无法想象！
【欢迎来到走进高维空间系列的第五部分|走进高维空间之“维度魔咒”，所有的“邻居”都去哪了？】第二部分的结论是，在高维空间中，内切于球内的立方体不完全在球体以内。
.在第三部分中，我们推导出，在无限维空间中，点与点之间的距离都是相等的。
第四部分讨论的是高维空间与概率论的联系。
这些疯狂的、无法想象的高维空间现象让人兴奋，我们只能借助数学等工具去理解它们的真正含义。这篇文章，我们将见证这些奇迹之一是如何影响一个广泛使用的统计工具的。让我们开始吧！
预测问题
在各种领域中，人们通常会根据一个或多个预测变量的值来预测某个响应变量的值。也许我们希望预测一个病人在出院后30天内再次入院的概率（响应），因为有各种人口统计学和临床特征（预测因素例如，年龄、是否有并发症、实验室测量）。或者，我们希望根据房屋的各种特征（如邻里关系、卧室数量、面积）来预测房屋的销售价格。或者我们希望根据各种环境和农业特征（如降雨量、土壤成分、害虫管理策略）预测作物产量。
可靠地预测某些响应变量的值的能力是非常强大的，有大量的方法可以解决这类问题，每种方法都有不同的优点和局限性。今天，我们将特别关注其中的一个方法，因为它非常直观，最重要的是，它给我们提供了一个观察高维空间的一些奇迹的机会。
K-近邻算法（K-NearestNeighbors）
如果我们想用一组特定的预测值来预测一个新的数据点的响应值，我们只需查看训练数据，找到所有具有完全相同的预测值的数据点，并计算出对这些训练数据点观察到的响应值的平均值或中位数。问题是，我们通常没有如此丰富的训练数据，而且很少有跨越所有可能的预测值组合的训练数据。当我们想预测一个新的数据点的响应值时，我们可能有一些类似的训练数据点的响应值，但没有完全相同的预测值组合。那该怎么办呢？构建一个模型。
为预测-响应关系建模的一种方法被称为K-近邻算法。为了理解这种方法，让我们把预测变量看作是代表一些高维的预测空间。也许你想知道这意味着什么，但这其实很简单，如果我们正在处理番茄作物数据，也许在第一轴（即维度）上有总降雨量，第二轴上有土壤硝酸盐水平，第三轴上有土壤pH值，第四轴上有平均温度，等等。因此，我们的每一个数据点都代表了高维空间中的一个点，它在该空间中的坐标取决于它对每个预测变量的值。例如，让我们看一下三维作物预测空间中的几个点。

文章图片
这里，绿色的点代表降雨量为8、土壤硝酸盐含量为35、pH值为6的作物；蓝色的点代表降雨量为4、土壤硝酸盐含量为25、pH值为7.5的作物；而橙色的点代表降雨量为6、土壤硝酸盐含量为45、pH值为7的作物。假设我们知道与这些西红柿作物中的每一种相关的作物产量。

欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”，所有的“邻居”都去哪了？

欢迎来到走进高维空间系列的第五部分|走进高维空间之“维度魔咒”，所有的“邻居”都去哪了？