罗永浩|数据规模爆炸性增长,云原生数据仓库数据化运营实战分享( 四 )


数据库的发展也跟人类工作一样 , 原来有的店夫妻二人就可以维持 , 一个人负责生产 , 另一个人负责销售 。 随着发展 , 店里的顾客越来越多 , 店还是一个店 , 但员工可能有十个人了 。 再后来 , 业务发展更多大了 , 一下招10万个员工 , 然后在10个场地去干 , 这就是分布式云原生数据仓库 。
(七)业界趋势:云原生数据库关键技术

上方是云原生数据库的关键技术 。
这里简单说两个技术 , 首先是云原生 , 云原生是什么意思呢?假如某位用户买了个数据库 , 当业务量少的时候 , 或者在法定节假日不使用的时候 , 收费就少 , 而在业务量大的时候 , 收费就多一些 。 按需按量收费 , 这是我们对数据仓库的一个要求 。
另外一个是安全可信 , 举个例子 , 阿里巴巴有一个投资部 , 假如给A公司投了500万 , 给B公司投了100万 , 这些信息都是高度私密 , 不可对外泄露的 。 假如这些信息是由员工进行管理 , 员工存在离职的可能 , 而一旦离职后发生泄密行为 , 这在法律层面也很难追责 。 如何让这种高度私密的信息完全加密 , 使得就算是拥有最高权限的DBA也无法查看这类信息 , 做到安全可信 。 后文将对此做详细展开 。
二、云原生与大数据应用 (一)业务面临的挑战

业务面临着许多挑战 , 主要有四个方面 。
首先是数据散乱、不一致 , 也有非常多的数据源 , 把数据收集起来是一个很大挑战 。
其次是系统极其复杂 , 系统或组件有40+个 。 原来可能基于Hadoop , 现在需要非常多的系统或组件 , 底下可能是HDFS , 上面是YARN、HBase , 再往上还有Hive、Flink等许多东西 , 非常复杂 。
除此之外还有分析不实时 , 它的数据只能做T+1 , 是传统大数据架构 。
最后是高学习成本 , 不同技术的版本迭代速度很快 , 学习成本很高 。
(二)云原生数据仓库+云原生数据湖构建新一代数据存储、处理方案

阿里云当时采用的是从一个最简单的架构 , 通过一个或两个产品就能解决整套产品的架构 , 能够让用户用得更简单 , 用SQL就可以解决各种各样的问题 。 比方原来的OSS数据 , 各个生产处理的数据大集中分析等 。
(三)云原生数据仓库:云原生

云原生数据仓库的云原生特性主要体现在 , 如果就一条数据 , 那么只会分配一条数据的存储 , 如果数据量增长 , 它会自动分配更多的存储 。
同样的 , 计算也是这样 , 如果没有计算需求或者分析需求 , 它不会分配资源 , 只有来了需求 , 才会分配资源进行计算或分析 , 整个做到按需按量付费 , 加上资源的弹性 。
(四)云原生数据仓库:数据库与大数据一体化

上面是云原生数据仓库中的关键技术 , 例如行列混存 , 能够支持高吞吐写入和高并发查询 。
其次是混合负载 , 就是上面既可以跑ETL , 又可以做查询 。
此外还有智能索引 。 数据库里面很重要的一个点是需要理解业务 , 理解Index , 要知道什么对查询有影响 , 什么对写入有影响 , 所以我们希望这个东西能够做得更智能 , 让用户不用管理这些东西 。
(五)新一代数据仓库解决方案

上方为新一代数据仓库解决方案架构图 。 最底层是数仓 , 上面是数仓模型 , 阿里在淘宝指数 , 数据洞察等方面做了非常多的模型 , 包括通过一个ID把所有的信息关联起来 。 这些信息汇聚成模型 。 模型上有数据构建管理引擎 , 可以做数仓规划 , 代码研发 , 数据资产管理 , 数据服务等 。
最上面是业务赋能 , 有许多的应用 , 包括监管报送类 , 经营决策类 , 风险预警类和营销与运营类 。