万字说透Web 3为什么可以解决数据使用中存在的难题( 七 )


3、物联网与数据采集
前面两点都或多或少地涉及到了数据采集 。 比如数据采集应该是自发而是被选择受控制的?受个体控制的数据采集如何保证真实性?自发的数据采集如何保证不侵犯隐私?数据采集的范围、方式与量规?
现有的数据采集可能主要发生于“上网”这一行为 。 举例来说 , 通过支付与消费记录获得购物习惯、行动轨迹;通过网络言论推测个体想法与认知;通过浏览记录、应用下载记录等获得个人喜好等 。 然而智能家居、自动驾驶、监控等背后代表的可能会是另一种覆盖面更广的数据采集路劲——物联网 。
物联网将在个体的生活中布满装有高速计算芯片的机器 , 这些机器的日常工作将会积累到大量的数据 , 通过计算与加工匹配入数据库 。 这些更丰富的细节将会使得大数据对个体的画像更加清晰 , 从简单的行为习惯深入到思维认知、精神特性等 。 这从一方面对数字化经济及社会治理具有极大意义 , 另一方面也引发了奥威尔式的个体隐私困境——不仅仅来源于被时刻监控的焦虑 , 更因为这些重要数据一旦泄露 , 基本上可以宣布一个数字时代公民的“死亡” 。
因此 , 物联网在数据采集过程应该做到什么程度、遵守什么规则 , 设备的可信度、设备的身份核实、设备的记账系统等 , 是一定需要被提前约定并严格遵守的 。
4、数据价值匹配
提到数据市场 , 不得不说的一个问题是数据的价值匹配 。
什么意思?对比商品市场 , 每个商品能够做什么我们都是非常清楚的 , 正是据此我们结合自己的需求给出了期望价格 。 比如我是一名农夫 , 我一天可以砍十斤柴 , 一斤柴可以卖二十块 , 我想去市场买只斧子 , 斧子可以用三十天 , 于是我知道了:斧子总共能砍六千块的柴 , 我砍柴这么累应该赚三千 , 那么斧子的期望价格就在三千以下 。
但数据市场不同 。 数据的价值讨论存在一个悖论:即如果我不知道一条数据的内容 , 我无法为其确定价值;但一旦我知道这条数据的内容 , 这条数据对我来说就不存在价值了 。 这种特性让数据市场自然完成价值匹配变得非常困难 。
好在大数据技术让内容无法一目了然的数据完成了价值发现 。 数据需求者可以搜索或挖掘想要的数据 , 现在摆在他们面前的难题成了:如何确定这些数据内容的“正确性”?
即:如果低价值的数据伪装成高价值数据 , 无法提前查看内容的数据需求者如何快捷地进行筛选以便满足自己的需求?
密码学中存在有一种“在不向验证者提供任何有用的信息的情况下 , 使验证者相信某个论断正确”的技术 , 称为“零知识证明” 。 然而 , 零知识证明的提供者 , 如何保证他提供正确论断的动机不受高额利益的影响?设计事前激励机制是个好主意 , 然而如果无法知道数据的准确价值 , 如何调节激励的额度?
即使解决了数据内容与数据标题的匹配“正确性” , 在海量的交易需求面前 , 需要的显然是一个高并发、高性能、可自动执行交易的系统 。 好在区块链已经走在了解决问题的路上 。
5、数据估值
还有个容易被忽略的一点:数据估值 。 既然要做交易 , 就必须有通行被认可的估值体系 , 否则市场将乱象丛生 。 现行的数据估值方法包括:
成本法 , 将收集、存储和分析数据的成本作为数据估值基准 。 一个明显的问题是 , 大部分数据并非专门生产 , 而是其他活动中的附属物;大部分数据的收集、存储等也是同时进行;大部分数据的产权还难以进行界定 。 这导致它们的成本难以划分 。