关于“档案大数据”的非主流看法( 二 ) 关注我们-数字罗塞塔计划-近日

2012年IBM提出的大数据4V特征已经深入人心，后续出来很多5V、6V的版本都是4V基础上的变种，认可度和普遍接受度肯定没有4V那么高。那我们就来对照一下档案数据是否具备大数据的4V特征：

文章图片
Volume数据量大
到底多大的数据量才能被称之为是大数据？这实际上也没有一个明确的定义，而且是相对变化的，门槛肯定会越来越高。就现阶段而言，笔者认为100TB以上的数据量称为大数据是比较合适的，显然档案部门目前能达到这个数据量的凤毛麟角。
Velocity要求快速响应
对数据的实时性要求很高，能及时快速的响应变化，不管是数据处理还是数据分析在性能上都有很高要求。这方面对于档案数据而言问题不大，目前档案信息化系统大部分都是目录检索、全文调阅，档案信息资源库以关系型数据库为主构建，响应速度完全可以满足要求。
Variety数据多样性
数据来自不同的数据源，非结构化数据越来越多，需要进行清洗、整理、筛选等操作，将其变为结构化或者半结构化数据。数据多样性对于档案数据而言是客观存在的，由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化，如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门都面临的现实问题。但是这项工作要求在归档环节完成，最终进入档案信息资源库的都是规范的、有价值的、符合档案四性要求的数据。当然由于档案类型多种多样，档案信息资源库中除了相对规范的目录数据之外，也会存在大量文本、图形、图像、音视频、多媒体等各种格式的全文数据。
Value价值密度低
数据量大而价值密度低，数据中蕴含价值但整个过程如同沙里淘金、大海捞针。这一点存在较大的争议，有人为了突出大数据中蕴藏的价值而将这个V直接解释为“数据价值” ，这实际上有失偏颇，也是对大数据技术的不尊重。事实上，要从海量数据中挖掘出其中的潜在价值是非常有难度和挑战的事情，相当于从一座“贫矿”中提炼黄金。但是档案数据的质量和价值密度远高于常规的大数据，相当于是一座“富矿” ，甚至可以称之为“钻石矿”！

文章图片
通过上述对照，我们可以发现，档案数据实际上和常规意义上的大数据存在很多不同之处，是否就能称之为“档案大数据”值得商榷。主要的不同点如下：
1.绝大多数档案部门中现有档案数据量尚未达到大数据级别，现阶段采用传统关系型数据库存目录，文件系统存全文的方式建设档案信息资源库并开发数字档案馆（室）应用系统已经能够满足要求；
2.虽然档案数据的来源复杂，格式多样，但进入档案信息资源库的都是已经归档处理、整理完毕的规范数据，大数据面临的海量异构非结构化数据高速处理和响应的场景并不存在，采用大数据技术来构建档案信息资源库完全没有必要；
3.档案数据是高价值密度的数据，每一件档案都具有独特性和唯一性，都具有与生俱来的凭证价值和情报价值，所以档案数据中不存在没有价值的数据，这和低价值密度的大数据存在天壤之别。如果说大数据属于沙里淘金，因此需要专业而强大的大数据技术支撑，那么档案数据就相当于遍地是黄金，只需要客观、真实、准确的提供利用服务即可。