欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?

欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?
文章图片
欢迎来到"走进高维空间系列"的第五部分 , 在这里我们将探索高维空间的一些奇怪和反直觉的奇观 。 距离高维空间系列第四部分:”走进高维空间——概率论与高维空间的深层次联系“已经有一年多了 。 在阅读第五部分之前 , 我建议先浏览以下前四部分内容 。
简单回顾以下前四部分的内容:
第一部分我们得出:在无限维空间中球体的体积都集中在边界上 , 我们只能知道这个结论 , 但是无法想象!
欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?】第二部分的结论是 , 在高维空间中 , 内切于球内的立方体不完全在球体以内 。
.在第三部分中 , 我们推导出 , 在无限维空间中 , 点与点之间的距离都是相等的 。
第四部分讨论的是高维空间与概率论的联系 。
这些疯狂的、无法想象的高维空间现象让人兴奋 , 我们只能借助数学等工具去理解它们的真正含义 。 这篇文章 , 我们将见证这些奇迹之一是如何影响一个广泛使用的统计工具的 。 让我们开始吧!
预测问题
在各种领域中 , 人们通常会根据一个或多个预测变量的值来预测某个响应变量的值 。 也许我们希望预测一个病人在出院后30天内再次入院的概率(响应) , 因为有各种人口统计学和临床特征(预测因素例如 , 年龄、是否有并发症、实验室测量) 。 或者 , 我们希望根据房屋的各种特征(如邻里关系、卧室数量、面积)来预测房屋的销售价格 。 或者我们希望根据各种环境和农业特征(如降雨量、土壤成分、害虫管理策略)预测作物产量 。
可靠地预测某些响应变量的值的能力是非常强大的 , 有大量的方法可以解决这类问题 , 每种方法都有不同的优点和局限性 。 今天 , 我们将特别关注其中的一个方法 , 因为它非常直观 , 最重要的是 , 它给我们提供了一个观察高维空间的一些奇迹的机会 。
K-近邻算法(K-NearestNeighbors)
如果我们想用一组特定的预测值来预测一个新的数据点的响应值 , 我们只需查看训练数据 , 找到所有具有完全相同的预测值的数据点 , 并计算出对这些训练数据点观察到的响应值的平均值或中位数 。 问题是 , 我们通常没有如此丰富的训练数据 , 而且很少有跨越所有可能的预测值组合的训练数据 。 当我们想预测一个新的数据点的响应值时 , 我们可能有一些类似的训练数据点的响应值 , 但没有完全相同的预测值组合 。 那该怎么办呢?构建一个模型 。
为预测-响应关系建模的一种方法被称为K-近邻算法 。 为了理解这种方法 , 让我们把预测变量看作是代表一些高维的预测空间 。 也许你想知道这意味着什么 , 但这其实很简单 , 如果我们正在处理番茄作物数据 , 也许在第一轴(即维度)上有总降雨量 , 第二轴上有土壤硝酸盐水平 , 第三轴上有土壤pH值 , 第四轴上有平均温度 , 等等 。 因此 , 我们的每一个数据点都代表了高维空间中的一个点 , 它在该空间中的坐标取决于它对每个预测变量的值 。 例如 , 让我们看一下三维作物预测空间中的几个点 。
欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?
文章图片
这里 , 绿色的点代表降雨量为8、土壤硝酸盐含量为35、pH值为6的作物;蓝色的点代表降雨量为4、土壤硝酸盐含量为25、pH值为7.5的作物;而橙色的点代表降雨量为6、土壤硝酸盐含量为45、pH值为7的作物 。 假设我们知道与这些西红柿作物中的每一种相关的作物产量 。