贝叶斯模型也存在同样的问题 。 一些模型超参数与数据的拟合较好 , 但只要“正确”的模型没有包含在初始集中 , “更好的拟合”在客观上仍然可能是非常糟糕的 。
以数据为中心的AI以数据为中心的人工智能不仅得到那些能够访问大量数据的人的支持 , 并且一般人们也都会认为训练数据越多越好 。 为了理解为什么会这样 , 让我们回到贝叶斯定理 。 我们在方程中得到的除数p(data)也被称为证据概率
在此先简单解释一下几个主要的概念:
在上式中 , P(model|data)是后验概率(Posterior)
P(data|model)是似然(Likelihood)
P(model)是先验概率(Prior)
P(data)是证据(Evidence)
为什么给这几个概率取这么个名字呢?
在贝叶斯方法中 , 我们“知道”数据 , “假设”模型
先验概率(Prior):在观测到data后 , model是未知的 。 我们的目标是算出它是model的概率 , 而我们在观测之前已经知道了data是model的概率 , 因此P(model)叫做先验概率 。
后验概率(Posterior):在观测到data后 , 知道data的信息后 , model的概率就改变了 。 因为这个概率P(model|data)是在观测之后才知道的 , 所以叫做后验概率
证据(Evidence):因为我们已经知道data , 并且已经观察到了这个事实的发生 , 因此对我们来说它是一个证据 , 而我们观察到这个证据的概率P(data)就叫证据
似然(Likelihood):字典上意思是一件事发生的可能性或概率 , 在这个例子中它表示当data是model时 , 它是data的概率 。
这些概率有这些名字的根本原因是事件的发生顺序(发生在观测之前或之后)不同 。
这听起来有点晦涩难懂 , 并且在许多现实场景中 , 要知道潜在的分布p(data)是很困难因为我们愿意相信我们得到的数据是在从潜在的分布中采样的 , 但实际上却是在异常值和/或通带有噪声的测量“设备”进行采样的 。
因此 , 在以模型为中心的方法中 , 试图完全避免处理这个问题 。 在典型的拟合优度度量(贝叶斯因子、似然比等)中 , 我们只是提出证据概率 。 这就是为什么这些衡量标准总是比率的原因 , 也就是说它们只能判断一个模型是否比另一个更好 。
但对于任何现实生活中的应用(例如 , 客户流失预测) , 我们对“最好”模型的相对好坏不感兴趣 , 而是对它的泛化感兴趣(例如 , 避免客户流失) 。 因此在以数据为中心的人工智能方法中 , 是希望致力于提高对p(data)的知识的归纳和总结 。 所以就想出了很多可以使用的方法:
- 监控数据质量以控制数据中的噪声和倾斜
- 进行更多的预处理 , 以减轻训练和线上推理时异常值的影响
- 用不同的模型处理不同的数据子集 , 提高了系统的整体性能
我曾参与过许多新开发的深度学习项目 , 每一次我看到的最大改进都来自于数据清理 。 但是清理数据不仅意味着要处理异常值、缺失值和重复值 , 还意味着要验证标注的一致性 。 有了更干净的数据 , 就可以从p(data)中进行更好的抽样 , 也就是说可以使用不同的数据增强技术对潜在的例子进行更彻底的抽样 。
选择哪一个一般·的文章会在结尾都会告诉你:成年人是不做选择题的 , 我全都要:使用归纳偏见和清理数据 。 但我想说的是 , 同时以这两个为中心是不太可能的 , 因为两者兼顾的问题在于 , 如果你不选则一个为中心 , 另外一个为辅助的话 , 而是最终会什么都得不到 。 在实践中 , 对数据和模型的同时改进会导致不明确的结果 。 例如一个项目经过一周的更改之后 , 终于看到了改进效果 。 但你应该把它归因于什么呢?是因为清理数据的工作吗?还是因为在模型架构上的工作?是两者的结合吗?你还是只能猜测 。 而且当看不到改进时 , 情况甚至更加困难:应该放弃该架构吗?更换数据处理方法?还是你不应该把它们放在一起同时使用?
- 数据库|华为进军网约车,要干掉滴滴?别瞎传了,完全不是这回事
- 消费观|当代年轻人消费观,理性性价比成关键词,唯品会数据印证实情
- 华为|京东宣布换购促销面向全量商家开放,并邀请商家尝试给出建议
- 京东|DSV账号有助跨境卖家稳健获利,2022年沃尔玛平台将是“掘金”的开始
- 数据库|京东安装“小红书”
- 苹果|为什么实体店的苹果手机比淘宝京东官网上卖的得便宜?
- 数据|合思·易快报签约路卡集团 无需报销带来极致费控体验
- 本文转自:十堰广播电视台十堰广电讯(全媒体记者 陈林 通讯员 刘爱理)7月14日|十堰工业大数据中心二期项目今日投产,规模为湖北之最
- 地球|我国建成第二代地球同步轨道数据中继卫星系统
- 数据库|渗透率接近天花板,移动支付如何能百尺竿头更进一步?