从产品形态上来说 , 数据仓库一般是独立标准化产品 , 数据湖更像是一种架构指导 , 需要配合着系列周边工具 , 来实现业务需要 。 换句话说 , 数据湖的灵活性 , 对于前期开发和前期部署是友好的;数据仓库的规范性 , 对于大数据后期运行和公司长期发展是友好的 , 那么 , 有没有那么一种可能 , 有没有一种新架构 , 能兼具数据仓库和数据湖的优点呢?
于是 , 湖仓一体诞生了 。 依据DataBricks公司对Lakehouse的定义 , 湖仓一体是一种结合了数据湖和数据仓库优势的新范式 , 在用于数据湖的低成本存储上 , 实现与数据仓库中类似的数据结构和数据管理功能 。 湖仓一体是一种更开放的新型架构 , 有人把它做了一个比喻 , 就类似于在湖边搭建了很多小房子 , 有的负责数据分析 , 有的运转机器学习 , 有的来检索音视频等 , 至于那些数据源流 , 都可以从数据湖里轻松获取 。
就湖仓一体发展轨迹来看 , 早期的湖仓一体 , 更多是一种处理思想 , 处理上将数据湖和数据仓库互相打通 , 现在的湖仓一体 , 虽然仍处于发展的初期阶段 , 但它已经不只是一个纯粹的技术概念 , 而是被赋予了更多与厂商产品层面相关的含义和价值 。
这里需要注意的是 , “湖仓一体”并不等同于“数据湖”+“数据仓” 。 现在很多公司经常会同时搭建数仓、数据湖两种存储架构 , 一个大的数仓拖着多个小的数据湖 , 这并不意味着这家公司拥有了湖仓一体的能力 , 湖仓一体绝不等同于数据湖和数据仓简单打通 , 反而数据在这两种存储中会有极大冗余度 。
为什么说湖仓一体是未来?
那么 , 湖仓一体凭什么能成为未来新趋势呢?换而言之 , 在数据智能时代 , 湖仓一体会不会成为企业构建大数据栈的必然选择呢?
实际上 , 从技术维度和应用趋势来看 , 对于高速增长的企业来说 , 选择湖仓一体架构来替代传统的独立仓和独立湖 , 已经成为不可逆转的趋势 。
一个具有说服力的例证是 , 现阶段 , 国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案 , 比如亚马逊云科技的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、滴普科技的FastData等 , 这些玩家有云计算的老牌龙头 , 也有数据智能领域的新势力 。
事实上 , 架构的演进是由业务直接驱动的 , 如果业务侧提出了更高的性能要求 , 那么在大数据架构建设的过程中 , 就需要数据库架构建设上进行技术升级 。 以滴普科技为例 , 依托实时湖仓平台FastData , 基于对先进制造、生物医药、商品流通、金融科技等行业的深度洞察 , 滴普科技从实际场景切入 , 为客户提供了一站式的数据智能平台技术建设方案 。
滴普科技认为 , “在数据分析领域 , 湖仓一体是未来 。 它可以更好地应对AI时代数据分析的需求 , 在存储形态、计算引擎、数据处理和分析、开放性以及面向AI的演进等方面 , 要领先于过去的分析型数据库 。 ”以AI应用层面为例 , 湖仓一体架构天然适合AI类的分析(包括音视频非结构化数据存储 , 兼容AI计算框架 , 具有模型开发和机器学习全生命周期的平台化能力) , 也更适合大规模机器学习时代 。
现在是布局湖仓一体的好时机吗?
尽管从市场发展走向来看 , “湖仓一体”架构是基于技术发展进程的必经之路 。 但由于这个新型开放架构仍处于发展早期 , 国内外企业数字化水平和市场认知的不同 , 造成了技术解决方案也存在着较大的差异 。
在业内投资人看来 , “虽然美国的企业服务市场比我们成熟的多 , 也有很多路径可以参考 , 但中国市场却有着很多中国特色 。 以对标Databricks的滴普科技为例 , 美国企业服务市场往往卖产品就可以了 , 但中国大客户群体需要更与客户资深场景深度融合的解决方案 , 解决方案需要兼顾通用性和定制化 。 ”
- oracle|居心不良!美国科技巨头被赶出中国,中国网友表示大快人心!
- 小米科技|赢麻了!没想到小米三款新机中,它才是销量最高的
- 云九资本|科技发展教育——大数据时代
- 苹果|对于苹果AR:罗永浩这句话草率了
- 一加科技|揭开神秘的面纱,专注于极客的一加品牌,值得入手的三款机型
- 小米科技|外媒:华为鸿蒙系统“露馅”了
- 小米科技|又一互联网大佬宣布计划移居海外
- 小米科技|对比小米12S,为何大家更愿意选择vivoX80,原因无非这3点!
- 中国科学院科技论文预发布平台已有论文1.64万篇
- 小米科技|小米推出99“空调鞋”,叫板阿迪:多一个logo,你就卖上千块?