大数据|什么是分布式存储?主要应用在哪些方面?

什么是分布式存储?主要应用在哪些方面?

国家大力支持5G、人工智能、区块链、云计算、和大数据等前沿科技的发展。而随着存储数据的增加,存储服务器也越来越多,同时存储压力也不断的上升,不仅增加了存储的高成本,同时这种传统的存储方式也在数据存储的安全性和可靠性方面存在很大的风险,一旦一台大型机器出现故障,那么整个系统将可能处于不可用的状态,后果非常的严重。相比传统的集中式存储存在数据安全性和可靠性的问题,分布式存储就可以很好地解决这一痛点。
【 大数据|什么是分布式存储?主要应用在哪些方面?】而在信息爆炸的时代,人们可以获取的数据呈指数倍的增长,单纯在固定某个地点进行硬盘的扩充在容量大小、扩充速度、读写速度和数据备份等方面上的表现都无法达到要求; 而且大数据处理系统的数据多是来自于客户,数据的种类多,存储系统需要存储各种半结构化、非结构化的数据,如文档、图片、视频等,因此大数据的存储宜使用分布式文件系统来管理这些非结构化数据。
分布式存储是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
分布式存储通过非标准协议实现服务器上存储资源的整个,并进行存储资源池化和虚拟化处理,最后呈现给用户某种形式(块存储或者文件存储)的存储空间。分布式存储有其特异性,其使用的并非标准协议,因此通常需要在应用服务器安装其客户端软件实现存储空间的虚拟呈现,以及请求的处理。
由于分布式存储拓扑结构的复杂性,其出现故障的概率也大大增加了。因此,对于分布式存储需要实现基于网络的数据冗余、数据保护和数据容错等功能,确保在出现任何异常情况,如磁盘、网卡、交换机和服务器等故障,下存储系统的可用性和可靠性。
分布式存储硬盘:ssd固态硬盘的存储容量也是极大的 (120G、240G)可以更好提供存储条件
传统的分布式计算系统中通常计算节点与存储节点是分开的。当执行计算任务时,首先要把数据从数据节点传输至计算节点( 数据向计算迁移) ,这种处理方式会使外存文件数据 I/O 访问成为一个制约系统性能的瓶颈。为了减少大数据并行计算系统中的数据通信开销,应当考虑将计算向数据靠拢和迁移。
从各厂商的解决方案来看,面对目前互联网应用PB级的海量存储的存储需求,频繁的数据传输,都是通过应用分布式存储系统,实现在普通PC机上部署节点,通过系统架构设计提供强大的容错能力,针对大型的、分布式的、大量数据访问的应用给用户提供总体性能最高的服务。