数据库|甲骨文断供俄罗斯!中国数据库能否一战?数据库产业深度报告 | 智东西内参( 二 )


SQL是关系型数据库的标准语言 , 相比C、Java、Python等编程语言 , SQL贴合口语的设计使得其代码复杂度大大简化、便于数据分析人员上手 , 同时嵌入式的设计也保证了SQL可以被其他编程语言轻松调用 , 据TIOBE统计 , SQL在近20年稳居TOP10编程语言榜单 。 关系型数据库的二维表数据存储模式为关系型数据库的流行普及提供了环境基础;而SQL语言的流行也反哺了关系型数据库的推广 , 两者相辅相成 , 共赢于数据库市场 。

▲DB-Engines流行数据库排名前十
随着互联网业务规模快速增长 , 拥有灵活拓展与高读写并发能力NoSQL数据库得到快速发展 。 由于传统的关系型数据库在保证数据强一致与系统可用的前提下 , 其水平扩展能力受到限制;非关系型数据库NoSQL则是基于分布式存储原理 , 放弃了传统的关系模型 , 在一致性与可用性之间寻求平衡 , 从而保证了系统地灵活拓展与高读写并发能力 。 随着社交媒体等互联网业务快速发展 , 数据量激增 , 传统关系型数据库性能逐渐达到瓶颈 , 因此 , 以保证拓展性与高并发性能为前提地NoSQL数据库得到快速发展 。
为了应对数据的海量增长并追求更低的扩容成本 , 数据库由单机、集中式向分布式架构快速发展 。 随着信息化水平快速提升 , 对数据库的存储、读写并发、扩容要求更高 , 集中式架构的“Scale Up”纵向扩容机制面临硬件性能瓶颈 , 因此“Scale Out”式的横向扩容分布式架构成为新趋势 , 通过网络将物理分散的数据库单元连接为逻辑上的统一整体 。 从集中式到分布式的演进降低了对硬件性能的要求 , 使得企业数据库拓展成本大幅降低 。
分布式架构由共享磁盘、共享内存架构 , 逐步向纯无共享架构发展 , 在无共享架构中 , 每个处理器私有内存和磁盘空间 , 利用网络通信 , “Scale Out”式横向增加处理器和相应的内存、磁盘 , 从而避免事务对内存访问和网络带宽的竞争 , 提高处理性能 。 国产方面 , 无共享分布式架构已经趋于成熟 , 如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无共享架构 。

▲各架构对比
需求功能决定数据库逻辑架构 , 逻辑架构决定访问性能 。 为实现海量数据存储、在线高并发 , 并同时支持OLTP和OLAP的功能 , HTAP应运而生 , 按照具体架构可分为3类:

▲HTAP不同架构
根据墨天轮排名(截至2022/02) , 目前国内前六大数据库均为HTAP+分布式架构 , 包括PingCAP的TiDB、华为openGauss、蚂蚁OceanBase、达梦的达梦+、华为GaussDB、阿里PolarDB 。 其中排名第一的PingCAP基于Google的Spanner模型和Stanford的Raft算法研发TiDB数据库 , 借助底层数据同步及行列透明转换技术 , 将面向联机交易的行存引擎与面向实时分析的列存引擎融合改造为行列混合数据架构 。 在HTAP技术浪潮中 , TiDB数据库凭借水平线性扩展、强一致分布式事务、故障自恢复的金融级高可用、真正跨数据中心多活等核心特性拔得头筹 。
部署方式的演化上 , 数据库上云成为重要发展趋势 。 随着云基础设施的成熟和企业解放DBA运维难度的需求日渐迫切 , 将传统数据库直接部署在云端 , 由云厂商提供安装和维护服务的云托管数据库逐渐受到业内追捧 。 据Gartner预测:2023年云DBMS收入将占DBMS市场总收入的50% , 75%的数据库将部署在云端 。 在数据库上云过程中 , 数据迁移是最大的痛点 。 针对企业面临的完整性、安全性、一致性等难题 , 市场催生了安畅网络、数腾软件等提供数据上云迁移的第三方公司 。