小米科技|大量数据集中,牵涉着很多变数

小米科技|大量数据集中,牵涉着很多变数

文章图片

小米科技|大量数据集中,牵涉着很多变数

文章图片


目前多变量统计方法大部分处理小量样本数据 , 对于受测体的变数是事前固定的 , 基本假设为变数之间的数据型态是相同的 , 且相关是有固定形式的 。 因此 , 模型中仅需追踪少数参数所涉入各种因素的效应 。 但在大量数据集中 , 牵涉很多变数 , 必须随时加入更多变数 , 辨别更大数据集的结构 , 及尝试多种不同的方法 。 而且 , 可能更复杂的是各变数间的数据形态是不同的 , 因此变数间的相关也是不同形式的 。 复杂数据集来自向度的问题 , 其困难是向度越高 , 同质性数据点越稀少及异质性数据越分散 。



由于类神经网络是属于模式不拘的分析方法 , 对于决定合适的网络结构 , 隐藏层的层数及与各层内所应包含的神经元数目等 , 有较大的自由度 。 但当网络模式设定不佳时 , 亦常会出现学习速度缓慢及陷入局部最佳值等情况 。 因此 , 当建立网络模式时 , 对于相关参数的设定常须进行多方面的考察 。 通常 , 对于输入层的输入变数方面 , 由于类神经网络对于变数的提取没有如传统统计方法般的限制 , 研究者常以文献探讨、专家意见判断或经由统计方法处理 , 来决定输入层的输入变数 。



而在网络隐藏层方面 , 根据经验显示隐藏在一到二层时会有最好的效果 , 至于隐藏层中所需设定的神经元数目 , 其决定方法众多 , 但直至目前为止并无最佳的设定方式可供使用 , 通常使用者皆会依系统的特性来进行判断 。 目前许多的研究是以过去类似研究所累积的经验法则来计算隐藏层的神经元数目 , 一般认为没有速成的法则可以用来决定此一参数 , 唯有透过试误法才能达成 。



由于隐藏层的神经元数目会影响整个网络的学习能力 , 因此过多的神经元数目虽然可以达到较好的学习效果 , 但是在训练时却需要花费较多时间 , 在使用上较不方便且会造成网络的记忆现象而缺乏归纳的能力;而过少的神经元数目则会促使网络模式无法完整地描述输入和输出变数间的关系 。 模糊理论是以人类解决问题的思考模式为其出发点 , 许多主观意识的表达 , 并非二元逻辑所能够明确说明的 , 因此Zadeh教授便对模糊所定义的集合引进归属函数表示元素与集合的兼容程度 。



【小米科技|大量数据集中,牵涉着很多变数】就如同研究人员所提出的 , 大致上来说 , 所有的知识领域都可以加以模糊化 , 只要将传统的明确集合模糊化后 , 推广至模糊集合即可 。 模糊化的好处是可以提供更佳的推广性、错误容忍性、以及更适合应用在真实世界中的非线性系统 。 联合分析在发展产品设计上是一项有效的工具 , 可以了解每一位顾客对产品的属性的偏好 。 搜集数据时 , 受访者针对产品属性的水准的不同组合依喜好加以排序或给分数 。 为了避免组合数太多而造成排序或给分数的困难 , 常使用直交设计 , 以最少的水准组合数的整体反应 , 评价每个组合的成分效用值 , 然后分解受访者喜好的一特定水准组合中每一因子水准的重要性 。