隐私|「跑马圈数据」时代,12位产学研专家眼中数据要素与数字金融的「真相」

【 隐私|「跑马圈数据」时代,12位产学研专家眼中数据要素与数字金融的「真相」】隐私|「跑马圈数据」时代,12位产学研专家眼中数据要素与数字金融的「真相」
文章插图

本周,“2021人工智能产业论坛:数据要素与隐私计算”在成都举办,由中国人工智能学会主办,星云Clustar承办。论坛上,近二十位来自人工智能、金融科技的学术界、产业界人士,围绕隐私计算、数字金融等话题展开了深入的探讨。
专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在,并结合自身实践经验给出了发展路径的思考;金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱,也同样是论坛的一大重点。
恒生电子研究院院长、原上海交易所总工程师白硕就指出,“跑马圈数据”时代的两大痛点,是合作难和链条长。解决方案是加宽加高底座,打造一个开放的生态。数据智能革命会从数字化的中台开始,数据是基础,中台是关键场景的规划,隐私计算是当中较为突出的技术之一。
数据容易被复制、泄露、扩散,这种特性对市场非常不利,以至于有些人认为数据的经营和交易有可能是一个伪命题。
数据的构成也相比之前变化颇大。例如资本市场,从资讯商提供主流数据行情、上市公司标准化解决数据等,进入到非标数据分析的时代,大量的另类数据、非结构化数据出现。
数据生态起了根本性变化,为此有四种选择诞生:过去互联网平台的发展模式;政府数据所谓的数据服务模式;万德、同花顺这类私有终端的传统模式,单一厂家掌控所有的数据来源;数据联盟。
传统打法可能不再是主流,私有终端也未必能应对另类数据的庞大体量,联邦化的技术发展正值窗口机遇期。
数据到场景的链条过长,从附加值低的裸数据,转型艰难的带标数据,再到智能化深加工的数据、场景数据,各阶段所需技术不同,不同技术的拥有者变成了要“分段”体现自己的价值。这意味着谁能打通全链条,就可能占据生态上的优势。随着隐私计算走向成熟,机会也出现在了to B的联邦化数据经营战场。
新的机会,纵向看,内容集成商对接数据到场景的旧做法,可能会演化到全栈服务商提供内容深加工的形式;横向看,外部数据、服务会通过带保护的方式,进入到基础业务能力,合并形成统一的联邦化中台再对接业务。
加拿大工程院院士、加拿大皇家科学院院士杨强,则就《数据要素与联邦学习》为主题带来分享。他指出,数据的特点之一是增长迅猛,布置起来零成本;数据的价值属于场景的定义,场景不同、价值不同;同时它也具有马太效应,更容易形成垄断。
数据分为可用和不可能,前者又细分为可见和不可见。我们如今感兴趣的,实际上发展的是可用和不可见的分支上。
第一阶段,上世纪七八十年代,安全多方计算,针对精确计算和数据库查询的隐私保护需求而提出。安全性非常强,有理论证明,效率却非常低。
第二阶段,针对效率问题,提出差分隐私概念。通过概率方法引入噪音,使得查询方不能窥探数据库内。缺点是不能完全保障安全,且大量增加通知量。
第三阶段,集中硬件加密计划。硬件厂商提出新的芯片,使数据进入安全加密计算,一方看不到其他方数据,计算结果大家可以得到。
第四阶段,联邦学习,针对这种大规模复杂的计算多方计算而建立。
(推荐阅读:《微众银行首席AI官杨强:万字图文详谈联邦学习最前沿》)
机构间建模时,多数依靠特征补充来建立更好的模型。当机构和设备重叠不多时,可引入迁移学习的概念,把数据空间给迁移到一个新的空间,这多数是用在异构的数据。