神州信息|2021DAMA峰会！神州信息浅论基于数据原生的数据治理( 二 ) 互联网|handle|发展研究中心|数

第一个挑战，基于云原生的企业IT基础设施重构：数据采集方面面临新的挑战，如何实现云边端、全连接、低时延、敏捷等。
第二个挑战，基于数据和知识的企业核心竞争力重塑：需要真正实现数据融合，用模型算法多维度、全流程地实现数据融合，满足标准和质量。
第三个挑战，面向场景的业务和技术深度融合与创新：要实现数据创新，比如业务闭环和用户洞察。这个过程需要业务和技术协同。
所以说基于数据原生，数据治理将面临新的挑战，我们需要从三方面入手。第一方面从数据治理的高度上讲，需要更整体的、高度更高的标准，和更加灵活的治理机制，实现多层级的协同。第二方面从数据治理的宽度讲，数据来源更多、数据类型更多，数据形态更多，治理需要全方面覆盖。第三方面，从数据治理的深度上讲，业务流程要更深入、时间维度要更长，需要基于AI技术来实现深度治理。
基于数据原生的数据治理可以从数据生命周期入手，从数据的采集、融合、创新和业务化各阶段进行嵌入式的数据治理。采集阶段保证数据安全和隐私的前提下，实现数据准确性、高性能、高可用、高并发、低延迟。融合阶段，用新技术新理念实现数据的真正融合，而非只是物理集中，比如利用联邦学习实现数据共享和保护安全隐私、利用机器学习实现动态数据整合，不断投入技术资源维持熵值平衡。在创新和业务化阶段，更是需要数据挖掘、人工智能、知识图谱、迁移计算和区块链等技术实现业务创新。
所以基于数字原生的数据治理是和业务创新、新技术天然结合在一起的，缺一不可。往往也是和企业数字化转型紧密结合在一起的，互相依存，互相促进。从技术上讲，基于数字原生的数据治理需要一个数据资产中心，以此来实现资产集中化、资产业务化、资产服务化。数据资产盘点和运营都是基于这个数据资产中心。而为了真正做好基于数据原生的数据治理。站在一个企业或者是金融机构的视角，我们的数据资产中心应该放在哪个位置，是放在数据中台的萃取中心，还是放在数据仓库的模型层，还是放在别的地方？这些都因人而异，需要因地制宜。

文章插图
接下来给诸位汇报下神州信息在基于数字原生的数据治理的实践方面的一些创新成果。
1、基于动态演变机制机器学习模型的RNA&DNA动态模型整合方法
利用基于动态演变机制的机器学习算法，为互联网银行和银行互金业务提供了更加准确、及时的多态数据应用机制。

文章插图
RNA（脱氧核糖核酸）和DNA（核糖核酸）是生物遗传学上的概念，DNA是遗传物质，RNA是非遗传物质。用在数据治理上，DNA方法就是通过一系列模型整合方法还会让数据保持原来的属性特征，RNA方法则是通过一系列整合方法会让数据丢弃原来部分不够准确的属性特征。
举例来说，RNA方法可用于动态主数据整合，比如可以整合不同渠道产生的客户家庭住址，而这些家庭住址有准确的、也有不准确的，我们利用质量评分方法，进行多维度评分，规则权重则用机器学习算法来控制，最后选取得分最高数据记录进行整合。RNA已经是很大一个进步。
而DNA方法更加先进，它保留了信息的多态，进而创造了知识。比如有一种业务场景是客户有两个手机号码，都是有效的，我们需根据场景整合这两个手机号，并进行标记。记录客户在不同渠道、通过不同手机、进行不同的业务活动，并且进行分析挖掘，更加及时地、精准地响应客户的服务要求，提高满意度，降低金融风险。从地域、用途、渠道、交易事件、喜怒情感等不同维度实现手机号码的多态整合。