罗永浩|数据规模爆炸性增长,云原生数据仓库数据化运营实战分享( 三 )


除此之外 , 我们预计2025年的全球数据规模将会是2020年的430% , 全球数据规模每年都在增长 。
第二个是数据生产/处理实时化 。 原先我们可能一个月看一次报表 , 经过大数据 , 我们可以每天看一次昨天的数据 。 数据越来越实时化 , 能够实现秒级响应 。 以营销场景为例 , 在双十一购物节场景 , 当商家发现店铺的某个活动不能产生效果 , 那么可以在一分钟或者数分钟之内调整广告或投放策略 , 从而达到更好的营销效果 。 如果数据是按天反馈 , 在11月12日看到数据的时候 , 做活动带来的效果已经大大降低了 。 因此 , 数据实时化在这样类似的场景中 , 扮演着十分重要的角色 , 数据的实时也会带来应用的实时 。
第三是数据生产/处理智能化 。 目前在所有数据中 , 非结构化数据占比80% , 主要包括文本、图形、图像、音频、视频等 , 尤其是在当下热门的直播领域 , 对非结构化数据进行智能化处理 , 能够知道观众的喜好与其他信息 , 方便业务更好地开展 。 除此之外 , 非结构化数据以每年增加55%的速度持续增长 , 未来将成为数据分析非常重要的一个来源 。
第四个是数据加速上云 。 我们认为数据上云势不可挡 , 正如汽油车终将被电车代替一样 。 预计到2025年的时候 , 数据存储云上规模为49% , 2023年数据库上云规模75% 。
(四)业界趋势:云计算加速数据库系统演进
另一个业界趋势不容忽略:云计算加速数据库系统演进 。

首先我们看一下数据库发展历程 。 早在八九十年代数据库就已经诞生 , 那时候主要是商业数据库 , 如Oracle、IBM DB2等 , 这里面有些数据库还占据这如今的市场 。
到90年代 , 开源数据库开始涌现 , 如PostgreSQL、MySQL等 。 国内用MySQL比较多 , 国外用PostgreSQL比较多 。 到90年代以后 , 数据量越来越大 , 原来数量小的时候可能用PostgreSQL或MySQL , 单机就可以解决问题 , 随着数据量爆炸性增长 , 就需要像分布式或小型机的方式去解决大量数据和分析问题 。
数据分析的重要性体现在哪里?
举个例子 , 有个数据仓库Snowflake的公司在刚上市的时候就达到1000亿美金的市值 , 如今也有700亿美金 , 对于一个只做一款产品的公司来说 , 这是一个非常高的市值 。 为什么它的市值这么高?
前段时间和一位老师交流 , 他说对于现在的企业 , 尤其是电商或直播等互联网企业 , 早先他们企业最大的成本是人力 , 员工工资占据主要支出 。 但如今最大的支出是信息和数据 , 为了公司未来的发展规划 , 需要拥有大量的数据来分析当前客户最想要什么 , 最需要什么 , 业界的发展是什么 。 因此 , 公司需要大量购买数据、做大量的数据分析 , 这方面的成本已经超过了人员成本 。 这也是为什么一个只做数据仓库的公司 , 市值能够达到700亿美金 。
2000年以后大家开始用Hadoop、Spark , 2010年开始出现云原生、一体化分布式等产品 , 例如AWS、AnalyticDB等 。
(五)业界趋势:数据仓库加速从Big Data向 Cloud-Native + Fast Data 演进

上方是数据仓库的演进历史 , 计算方式从离线到在线 , 再到离在线一体化 , 然后到分布式 。 功能从统计到AI , 数据类型也从结构化到结构化与非结构化多模融合 , 负载从OLAP到HTAP , 硬件也升级为软硬件一体化 , 交付从On-Premise 到Cloud - Native + Serverless 。
在演进的不同进程中 , 有着各式各样的产品做支撑 。
(六)数据库系统架构演进

上图为数据库系统架构演进 , 简单的逻辑可以理解为 , 原来是一个厂房一个人干活 , 后来变成一个厂房十个人干活 , 然后再发展成多个厂房多个人干活 , 这就是整个数据仓库的发展历史 , 由原来的单机变成分布式 , 并且一份数据多个人使用 。