关于“档案大数据”的非主流看法

关注我们-数字罗塞塔计划-
近日 , 反复拜读了前国家档案局局长杨冬权先生今年6.9档案日的大作《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》 , 作为档案信息化从业者那真是倍感振奋 , 壮怀激烈!
关于“档案大数据”的非主流看法
文章图片
这篇文章绝对可以用气势磅礴、高屋建瓴这样的词语来形容 , 体现出作者俯瞰全局的站位和洞悉全场的眼光 , 让笔者深深折服 。 但是笔者对于文中提到的“全时代”中的“立档单位对所形成电子档案的全归档”这一观点还是存在不同看法 , 这与笔者一直以来萦绕心中、挥之不去的关于“档案大数据”的非主流观点存在交集 , 借此机会一吐为快 。
一、“立档单位对所形成电子档案的全归档”
首先我们来分析一下“立档单位对所形成电子档案的全归档”这句话 , 笔者个人觉得这句话是存在一定语病的 , “电子档案”应该是归档之后的产物 , 归档之前的应该是“电子数据”、“电子信息”或者“电子文件” , 所以准确地说 , 这句话改为“立档单位对所形成电子数据的全归档”更加合适 。 结合文中提到的“很多信息部门、数据部门的电子信息、电子数据 , 目前也都是‘全部性管理’而不是‘选择性管理’的 。 这些电子信息、电子数据不都是电子档案吗?”进一步印证了笔者的看法 , 那就是作者提出的“全时代”的要求是将所有电子信息、电子数据全部纳入归档范围 , 实现“立档单位对所形成电子数据的全归档”的目标 。
在笔者看来 , 这个目标非常宏伟 , 但感觉有些理想主义 , 在实际工作中很难落地 , 且不说档案部门自身有没有能力实现“全归档” , 从职责分工上而言 , 也很容易受到质疑:档案部门的手是不是伸得有点太长了 , 会不会动了信息部门的奶酪?
二、“档案大数据”
当然 , 在本文中我们主要讨论“档案大数据” , 对于上述问题不作进一步深入讨论 。 如果真的能够实现“所有电子数据全归档” , 那毫无疑问 , 档案部门留存的电子档案必然是海量(EB) , 甚至是天量(ZB)级别的 , 妥妥的“档案大数据” 。 但问题是 , 最终归档进入档案部门的数据量并不大 , 从全国范围来讲也只有PB级 , 分解到每个单位 , 基本上都只有TB级 , 那还能称之为“档案大数据”吗?
我们以各级各类档案馆为例进行说明 , 档案室的情况类似 。 根据国家档案局发布的《2020年度全国档案主管部门和档案馆基本情况摘要》 , 全国共有各级各类档案馆4233个 , 馆藏电子档案1387.5TB , 其中 , 数码照片390.2TB , 数字录音、数字录像523.5TB 。 馆藏档案数字化成果19588.5TB 。 也就是说全国4233个各级各类档案馆截止到2020年年底的总数据量只有21PB!平均每家单位只有约5TB数据!
关于“档案大数据”的非主流看法
文章图片
不可否认 , 从发展趋势上来看 , 各行各业都已经或者即将进入大数据时代 , 但至少到目前为止 , 对于档案行业而言 , 暂时还不需要为“数据大爆炸”过分担忧 , 哪怕是全面“单套制”之后大量电子文件进入档案部门 , 我们依然有充足的时间来比较、选择其他行业应用比较成熟的大数据技术和解决方案去应对未来的挑战 。 如果有人在大肆鼓吹“档案大数据”的必要性和紧迫性 , 那得思考一下他们的动机了 , 是不是又在制造和贩卖焦虑 。
三、档案数据&大数据
说到这里 , 我们还是回过头来对照一下大数据的定义 , 看看档案数据和大数据的区别和联系 , 以便读者作出自己的判断 。