数据库|什么是非结构化数据?

数据库|什么是非结构化数据?

文章图片

数据库|什么是非结构化数据?

文章图片


计算机信息化系统中的数据分为结构化数据和非结构化数据 。 其中 , 非结构化数据是指数据结构不规则或不完整 , 没有预定义的数据模型 , 不方便用数据库二维逻辑表来表现的数据 。 非结构化数据包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等 。

非结构化数据其格式非常多样 , 标准也是多样性的 , 而且在技术上非结构化信息比结构化信息更难标准化和理解 。 所以存储、检索、发布以及利用需要更加智能化的IT技术 , 比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等 。
再简单点 , 非结构化数据主要是指那些无法用固定结构来逻辑表达实现的数据 , 比如用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽 。 但国内的企业级客户在进行大数据分析时 , 仍以分析结构化数据为主 。
【数据库|什么是非结构化数据?】
再具体到典型案例中 , 像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用 , 这些行业对于存储需求包括数据存储、数据备份以及数据共享等 。
而且 , 从形态上 , 非结构化数据主要包含三大块:第一是文本文字;第二是图像、图片等;第三是视频流、电视流 。 和结构化数据相比 , 非结构化数据最本质的区别包括三个层面:非结构化数据的容量比结构化数据要大;产生的速度比结构化数据要快;数据来源具有多样性 。

据IDC调查 , 目前企业结构化数据仅占到全部数据量的20% , 其余80%都是以文件形式存在的非结构化和半结构化数据 , 这些非结构化数据每年增长率达60% 。 而如何管理好这80%的数据 , 是企业构建协同办公的关键一环 。 非结构化数据的存储和流转 , 大都采用邮件、FTP以及QQ等IM工具为主 。 这些工具传递文件时速度不稳定 , 安全性得不到保障 , 并且无法很好地满足企业中一对多的高频数据传递场景 。
而由于非结构化数据中没有限定结构形式 , 表示灵活 , 蕴含了丰富的信息 。 因此 , 在大数据分析挖掘中 , 掌握非结构化数据处理技术是至关重要的 。 处理非结构化数据包括:Web页面信息内容提取;结构化处理(含文文本的词汇切分、词性分析、歧义处理等);语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等);文本建模(含向量空间模型、主题模型等);隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等) 。
处理非结构化数据时 , 还需注意这几点:非结构化数据文件数量过多 , 过大;非结构化数据归集检索调取效率低;传统架构无法按需弹性配置存储空间 。

另外 , 随着网络技术的发展 , 特别是Internet和Intranet技术的飞快发展 , 使得非结构化数据的数量日趋增大 。 这时 , 主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显 。 因而 , 数据库技术也相应地进入了“后关系数据库时代” , 发展进入基于网络应用的非结构化数据库时代 。
而所谓的非结构化数据库 , 是指数据库的变长纪录由若干不可重复和可重复的字段组成 , 而每个字段又可由若干不可重复和可重复的子字段组成 。 简单地说 , 非结构化数据库就是字段可变的数据库 。 用它不仅可以处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息) , 还可以处理结构化数据(如数字、符号等信息) 。