先来问个问题|大数据正在揭露说谎的人

先来问个问题|大数据正在揭露说谎的人
文章图片
先来问个问题 , 一名女子在社交媒体上秀恩爱 。 如果她同时在谷歌上打出一个问题“我老公是不是……” , 她最有可能搜的问题是什么?
一般情况下 , 大多数人在社交媒体上秀出的一面 , 都是美化过的 。 当他们在搜索的时候 , 常常会暴露自己真实的想法 。 所以 , 大多数人很容易凭直觉猜测 , 她搜索的很可能是:“我老公是不是出轨了?”但实际上 , 她最有可能问的问题是:“我老公是不是同性恋?”这个问题的搜索量比“我老公是不是出轨了?”的搜索量高出10% 。 这个结果 , 是不是让你吃惊不小?
先来问个问题|大数据正在揭露说谎的人
文章图片
今天我们一起来挖掘大数据的价值 , 并告诉你如何进行大数据分析来增进我们对这个世界的理解 。
第一部分 。
在一个大数据的时代 , 什么样的大数据是有价值的?大数据 , 就是能够涵盖海量信息的数据集 , 能够帮助我们更好了解所在的世界 。 我们现在所处的大数据时代已经需要用“流数据”来形容了 。 什么是流数据?举一个例子 , 现在一辆无人驾驶汽车每秒钟所产生的数据量大概有100G , 你的手机标配大概也就64G吧 , 也就是它一秒钟产生的数据量 , 一台手机装不下 。 所以 , 流数据显示的是一种动态实时产生大量数据的状态 。
先来问个问题|大数据正在揭露说谎的人
文章图片
在这样的大数据时代 , 我们需要改变认知 。 几年前 , 我们认知是觉得数据越多越好 。 现在大数据已经不是越多就越好了 , 相比数量而言 , 挖掘新的大数据的价值更高 。 一种大数据有没有用 , 重点是它能不能提供一些新的信息 , 特别是此前从没有搜集到的信息 。
在这么多数据里 , 怎么发现更多新鲜的大数据呢?可以依靠数字尾气 , 尾气就是汽车排放的那个尾气 , 这是一个形容流数据的名词 。
我们现在每个人手里都有一台智能手机 , 我们无论在哪儿 , 只要拿着智能手机上网、发微信、买东西 , 都会留下数字的记录 , 这就是数字尾气 。 当然数字尾气不仅仅局限在人 , 随着越来越多的电子产品 , 比如说家用电器 , 也被接入互联网 , 它们也在实时产生数字记录 , 这些数字尾气汇流成的数据集 , 变得越来越重要 。
先来问个问题|大数据正在揭露说谎的人
文章图片
我们未来将面临大数据以几何级别增长的状态 , 更需要从中找到新的信息 。 那什么是新的信息?首先是相关性的信息 。 谷歌首席经济学家哈尔·瓦里安做的一个研究的例子 。 他们利用谷歌的一项功能“谷歌相关性”来做经济学的研究 , 这个工具能够找到不同数据之间的相关性 。 研究的问题是 , 用户搜索哪些信息 , 能预测一个市场内的房价 。
两人把特定地区的搜索信息与房价做了比较 。 研究发现 , 的确能够从一个地区的搜索中找到房价涨跌的线索 。 比如 , 如果更多人搜索“八成按揭贷款” , 或者“涨幅”、“涨价的速度” , 一个市场的房价就会涨 。 如果更多人搜索“快速卖房的流程”或者“按揭超过房价了” , 那这个市场的房价还得跌 。 换句话说 , 关键词和句子的搜索与一个市场房地产宏观的表现的确有相关性 。
先来问个问题|大数据正在揭露说谎的人
文章图片
其次 , 随着技术的进步 , 图像、视频等信息 , 也越来越多地被广泛使用 , 成为新的大数据 。 新的数据很可能是混乱复杂的 , 并不像平常人认为的是那种一目了然、简单清晰的数据 。 举了一个根据图像大数据进行分析的例子 。 研究者发现 , 越来越多的人在照相的时候开始笑了 , 这是为什么呢?研究者选择的大数据是过去100年里 , 美国高中生毕业图册上的照片 。