罗永浩|数据规模爆炸性增长，云原生数据仓库数据化运营实战分享( 三 ) 罗永浩

除此之外，我们预计2025年的全球数据规模将会是2020年的430% ，全球数据规模每年都在增长。
第二个是数据生产/处理实时化。原先我们可能一个月看一次报表，经过大数据，我们可以每天看一次昨天的数据。数据越来越实时化，能够实现秒级响应。以营销场景为例，在双十一购物节场景，当商家发现店铺的某个活动不能产生效果，那么可以在一分钟或者数分钟之内调整广告或投放策略，从而达到更好的营销效果。如果数据是按天反馈，在11月12日看到数据的时候，做活动带来的效果已经大大降低了。因此，数据实时化在这样类似的场景中，扮演着十分重要的角色，数据的实时也会带来应用的实时。
第三是数据生产/处理智能化。目前在所有数据中，非结构化数据占比80% ，主要包括文本、图形、图像、音频、视频等，尤其是在当下热门的直播领域，对非结构化数据进行智能化处理，能够知道观众的喜好与其他信息，方便业务更好地开展。除此之外，非结构化数据以每年增加55%的速度持续增长，未来将成为数据分析非常重要的一个来源。
第四个是数据加速上云。我们认为数据上云势不可挡，正如汽油车终将被电车代替一样。预计到2025年的时候，数据存储云上规模为49% ， 2023年数据库上云规模75% 。
（四）业界趋势：云计算加速数据库系统演进
另一个业界趋势不容忽略：云计算加速数据库系统演进。

首先我们看一下数据库发展历程。早在八九十年代数据库就已经诞生，那时候主要是商业数据库，如Oracle、IBM DB2等，这里面有些数据库还占据这如今的市场。
到90年代，开源数据库开始涌现，如PostgreSQL、MySQL等。国内用MySQL比较多，国外用PostgreSQL比较多。到90年代以后，数据量越来越大，原来数量小的时候可能用PostgreSQL或MySQL ，单机就可以解决问题，随着数据量爆炸性增长，就需要像分布式或小型机的方式去解决大量数据和分析问题。
数据分析的重要性体现在哪里？
举个例子，有个数据仓库Snowflake的公司在刚上市的时候就达到1000亿美金的市值，如今也有700亿美金，对于一个只做一款产品的公司来说，这是一个非常高的市值。为什么它的市值这么高？
前段时间和一位老师交流，他说对于现在的企业，尤其是电商或直播等互联网企业，早先他们企业最大的成本是人力，员工工资占据主要支出。但如今最大的支出是信息和数据，为了公司未来的发展规划，需要拥有大量的数据来分析当前客户最想要什么，最需要什么，业界的发展是什么。因此，公司需要大量购买数据、做大量的数据分析，这方面的成本已经超过了人员成本。这也是为什么一个只做数据仓库的公司，市值能够达到700亿美金。
2000年以后大家开始用Hadoop、Spark ， 2010年开始出现云原生、一体化分布式等产品，例如AWS、AnalyticDB等。
（五）业界趋势：数据仓库加速从Big Data向 Cloud-Native + Fast Data 演进

上方是数据仓库的演进历史，计算方式从离线到在线，再到离在线一体化，然后到分布式。功能从统计到AI ，数据类型也从结构化到结构化与非结构化多模融合，负载从OLAP到HTAP ，硬件也升级为软硬件一体化，交付从On-Premise 到Cloud - Native + Serverless 。
在演进的不同进程中，有着各式各样的产品做支撑。
（六）数据库系统架构演进

上图为数据库系统架构演进，简单的逻辑可以理解为，原来是一个厂房一个人干活，后来变成一个厂房十个人干活，然后再发展成多个厂房多个人干活，这就是整个数据仓库的发展历史，由原来的单机变成分布式，并且一份数据多个人使用。