关于电子文件元数据,忍不住想说几句

关注我们-数字罗塞塔计划-
在近30年档案信息化的发展历程中 , 要说国内哪几个档案行业标准的发布标志着档案信息化进入了一个全新的阶段 , 或者说起到了转折点的重要推动作用 , 那一定是安徽省档案局主导的DA/T46-2009《文书类电子文件元数据方案》、DA/T47-2009《版式电子文件长期保存格式需求》、DA/T48-2009《基于XML的电子文件封装规范》电子文件系列标准 。 尽管用现在的眼光去看待这三个标准 , 由于业务和技术都发生了很大变化 , 已经或多或少凸显出一些历史局限性问题 。 但在当时 , 那绝对是档案信息化圣经一般的存在 , 笔者正是在这三个标准的熏陶下一步一步走过来的 , 对此深有体会 。
前面笔者已经写了两篇文章分别针对DA/T47-2009和DA/T48-2009 , 即《我们需要什么样的电子文件格式标准?》和《EEP封装?METS封装?还是ZIP封装?》 , 今天我们再来聊聊DA/T46-2009对应的电子文件元数据问题 。
关于电子文件元数据,忍不住想说几句
文章图片
相关重量级标准
首先 , 笔者想说的是 , 尽管电子文件元数据的争议很大 , 但元数据的定义本身没有任何争议 。 笔者列举三个业界重量级标准中的定义如下:
元数据是指描述文件的内容、结构、背景及其整个管理过程的数据(DA/T46-2009 , 术语和定义3.5;ISO15489-1:2001 , 定义3.12)
元数据是指描述电子档案的内容、结构、背景及其整个管理过程的数据(DA/T58-2014 , 一般概念2.16)
元数据是指描述电子文件和电子档案的内容、背景、结构及其管理过程的数据(GB/T18894-2016 , 术语和定义3.3)
以上定义除了主语略有不同(文件、电子文件或者电子档案)之外 , 关于元数据的定义高度一致 , 都是由四部分组成:内容、结构、背景和管理过程 。
关于电子文件元数据,忍不住想说几句
文章图片
我们再来分析一下DA/T46-2009中的元数据构成:共88项 , 其中核心元数据45项(必选20项 , 条件选25项) 。 构成如下图所示:
关于电子文件元数据,忍不住想说几句
文章图片
这里面存在两个方面的问题 , 导致DA/T46-2009在后续推行落地过程中出现很大争议 , 最终造成雷声大、雨点小的实施效果 。
问题一
关于电子文件元数据,忍不住想说几句】明明电子文件元数据的定义没有任何争议 , 就是内容元数据+结构元数据+背景元数据+管理过程元数据 , 为什么还要按照文件实体、机构人员实体、业务实体、实体关系四部分来组织?兜了一圈岂非多此一举?
当然 , 笔者理解DA/T46-2009起草组是参考了电子文件元数据的殿堂级标准《ISO23081-1:2006信息与文献文件管理过程文件元数据第1部分原则》(后被采标为GB/T26163.1-2010)中提出的“法规三元组”模型 。 该模型因其适用于电子文件管理领域 , 反映了电子文件管理一体化的流程与阶段 , 也反映了建立具有真实性、可靠性、完整性和可用性电子文件管理元数据所必须具有的法规、人员、文件和业务元数据类别 , 而成为电子文件元数据标准制定的主要参考模型 。
关于电子文件元数据,忍不住想说几句
文章图片
该模型能够得到业界的一致认可 , 自有其逻辑严密性和理论完美性 , 但同时也把简单问题复杂化了 。 为了使标准能够真正落地 , 具有可操作性 , 一线档案部门更需要的是简单、易用 , 好理解 。
问题二
88项元数据肯定是多了 , 但45项核心元数据显然更加多了 , 特别是必选20项 , 条件选25项(“条件选”表示在特定环境和条件下必须采用) 。 在实际操作过程中 , 按照从严原则 , 往往条件选就被视作为必选 , 这样45项核心元数据就相当于全部是必选项 , 而且有很多是无法用计算机系统直接捕获的 , 这给基层档案部门造成了极大的困难 , 带来巨大的工作量 。