统计学除了对这些集合和测量有所定义之外没有其他假设 。 这就是为什么我们对概率空间的定义非常严谨的原因 。 一个概率空间 , 其数学符号写作(ΩFP) , 包含三部分:
- 一个样本空间 , Ω , 也就是所有可能结果的集合 。
- 一个事件集合 , F , 每个事件都包含0或者其它值 。
- 对每个事件发生的可能性赋予概率 , P , 这是一个从事件到概率的函数 。
机器学习分为多个类别 , 这篇文章我仅着眼于监督学习理论 , 因为它最容易解释(虽然因其充斥数学概念依然显得晦涩难懂) 。
统计学习理论中的监督学习 , 给了我们一个数据集 , 我们将其标为S= {(x?y?) , 也就是说我们有一个包含N个数据点的数据集 , 每个数据点由被称为“特征”的其它值描述 , 这些特征用x描述 , 这些特征通过特定函数来描绘以返回我们想要的y值 。
已知这个数据集 , 问如何找到将x值映射到y值的函数 。 我们将所有可能的描述映射过程的函数集合称为假设空间 。
为了找到这个函数 , 我们需要给算法一些方法来“学习”如何最好地着手处理这个问题 , 而这由一个被称为“损失函数”的概念来提供 。 因此 , 对我们所有的每个假设(也即提议的函数) , 我们要通过比较所有数据下其预期风险的值来衡量这个函数的表现 。
预期风险本质上就是损失函数之和乘以数据的概率分布 。 如果我们知道这个映射的联合概率分布 , 找到最优函数就很简单了 。 但是这个联合概率分布通常是未知的 , 因此我们最好的方式就是猜测一个最优函数 , 再实证验证损失函数是否得到优化 。 我们将这种称为实证风险 。
之后 , 我们就可以比较不同函数 , 找出最小预期风险的那个假设 , 也就是所有函数中得出最小下确界值的那个假设 。
然而 , 为了最小化损失函数 , 算法有通过过度拟合来作弊的倾向 。 这也是为什么要通过训练集“学习”函数 , 之后在训练集之外的数据集 , 测试集里对函数进行验证 。
我们如何定义机器学习的本质引出了过度拟合的问题 , 也对需要区分训练集和测试集作出了解释 。 而我们在统计学中无需试图最小化实证风险 , 过度拟合不是统计学的固有特征 。 最小化统计学中无需视图程向于一个从函数中选取最小化实证风险的学习算法被称为实证风险最小化
例证
以线性回归做一个简单例子 。 在传统概念中 , 我们试图最小化数据中的误差找到能够描述数据的函数 , 这种情况下 , 我们通常使用均值方差 。 使用平方数是为了不让正值和负值互相抵消 。 然后我们可以使用闭合表达式来求出回归系数 。
如果我们将损失函数计为均值方差 , 并基于统计学习理论进行最小化实证风险 , 碰巧就能得到传统线性回归分析同样的结果 。
这个巧合是因为两个情况是相同的 , 对同样的数据以相同的方式求解最大概率自然会得出相同的结果 。 最大化概率有不同的方法来实现同样的目标 , 但没人会去争论说最大化概率与线性回归是一个东西 。 这个最简单的例子显然没能区分开这些方法 。
这里要指出的第二点在于 , 传统的统计方法中没有训练集和测试集的概念 , 但我们会使用不同的指标来帮助验证模型 。 验证过程虽然不同 , 但两种方法都能够给我们统计稳健的结果 。
另外要指出的一点在于 , 传统统计方法给了我们一个闭合形式下的最优解 , 它没有对其它可能的函数进行测试来收敛出一个结果 。 相对的 , 机器学习方法尝试了一批不同的模型 , 最后结合回归算法的结果 , 收敛出一个最终的假设 。
- 机器人|2023,智能移动机器人加速落地
- 专利局|新报告:氢技术创新转向低排放 欧盟和日本专利领先
- 超越谷歌和苹果?小米进军电动汽车行业
- 埃隆马斯克说手机和可穿戴设备是过时的技术,脑机接口才是未来
- 小米科技|便宜了600块!一加11的产品力能和小米13相比吗?
- 一加科技|没有一加11Pro手机,但一加Ace2已入网,将搭载骁龙8+和100W快充
- 红米手机|红米K60和iQOO Neo7竞速版分别上手:选择,不会特别纠结!
- 比尔盖茨在谈论电动汽车时不提特斯拉,难道和埃隆马斯克有过节?
- 惠普|惠普戴尔退出中国?关注飞腾、鲲鹏和龙芯产业链
- 华为|怒砸400亿!华为和中芯国际成“邻居”,外媒:华为“野心”暴露