罗永浩|数据规模爆炸性增长,云原生数据仓库数据化运营实战分享( 四 )
数据库的发展也跟人类工作一样 , 原来有的店夫妻二人就可以维持 , 一个人负责生产 , 另一个人负责销售 。 随着发展 , 店里的顾客越来越多 , 店还是一个店 , 但员工可能有十个人了 。 再后来 , 业务发展更多大了 , 一下招10万个员工 , 然后在10个场地去干 , 这就是分布式云原生数据仓库 。
(七)业界趋势:云原生数据库关键技术
上方是云原生数据库的关键技术 。
这里简单说两个技术 , 首先是云原生 , 云原生是什么意思呢?假如某位用户买了个数据库 , 当业务量少的时候 , 或者在法定节假日不使用的时候 , 收费就少 , 而在业务量大的时候 , 收费就多一些 。 按需按量收费 , 这是我们对数据仓库的一个要求 。
另外一个是安全可信 , 举个例子 , 阿里巴巴有一个投资部 , 假如给A公司投了500万 , 给B公司投了100万 , 这些信息都是高度私密 , 不可对外泄露的 。 假如这些信息是由员工进行管理 , 员工存在离职的可能 , 而一旦离职后发生泄密行为 , 这在法律层面也很难追责 。 如何让这种高度私密的信息完全加密 , 使得就算是拥有最高权限的DBA也无法查看这类信息 , 做到安全可信 。 后文将对此做详细展开 。
二、云原生与大数据应用 (一)业务面临的挑战
业务面临着许多挑战 , 主要有四个方面 。
首先是数据散乱、不一致 , 也有非常多的数据源 , 把数据收集起来是一个很大挑战 。
其次是系统极其复杂 , 系统或组件有40+个 。 原来可能基于Hadoop , 现在需要非常多的系统或组件 , 底下可能是HDFS , 上面是YARN、HBase , 再往上还有Hive、Flink等许多东西 , 非常复杂 。
除此之外还有分析不实时 , 它的数据只能做T+1 , 是传统大数据架构 。
最后是高学习成本 , 不同技术的版本迭代速度很快 , 学习成本很高 。
(二)云原生数据仓库+云原生数据湖构建新一代数据存储、处理方案
阿里云当时采用的是从一个最简单的架构 , 通过一个或两个产品就能解决整套产品的架构 , 能够让用户用得更简单 , 用SQL就可以解决各种各样的问题 。 比方原来的OSS数据 , 各个生产处理的数据大集中分析等 。
(三)云原生数据仓库:云原生
云原生数据仓库的云原生特性主要体现在 , 如果就一条数据 , 那么只会分配一条数据的存储 , 如果数据量增长 , 它会自动分配更多的存储 。
同样的 , 计算也是这样 , 如果没有计算需求或者分析需求 , 它不会分配资源 , 只有来了需求 , 才会分配资源进行计算或分析 , 整个做到按需按量付费 , 加上资源的弹性 。
(四)云原生数据仓库:数据库与大数据一体化
上面是云原生数据仓库中的关键技术 , 例如行列混存 , 能够支持高吞吐写入和高并发查询 。
其次是混合负载 , 就是上面既可以跑ETL , 又可以做查询 。
此外还有智能索引 。 数据库里面很重要的一个点是需要理解业务 , 理解Index , 要知道什么对查询有影响 , 什么对写入有影响 , 所以我们希望这个东西能够做得更智能 , 让用户不用管理这些东西 。
(五)新一代数据仓库解决方案
上方为新一代数据仓库解决方案架构图 。 最底层是数仓 , 上面是数仓模型 , 阿里在淘宝指数 , 数据洞察等方面做了非常多的模型 , 包括通过一个ID把所有的信息关联起来 。 这些信息汇聚成模型 。 模型上有数据构建管理引擎 , 可以做数仓规划 , 代码研发 , 数据资产管理 , 数据服务等 。
最上面是业务赋能 , 有许多的应用 , 包括监管报送类 , 经营决策类 , 风险预警类和营销与运营类 。
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 酷睿处理器|关键数据出炉,京东比阿里差远了
- 罗永浩|三年时间还掉六个亿的债,中年男人罗永浩的还债故事
- 入场券|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺→
- 宋嘉吉|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 央媒表态后,联想关键数据出炉,柳传志这回要扳回一局?
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 数据仓库|红米真我moto三款骁龙870手机对比:2000元以内,谁更值得买?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始