· 国家档案局主管· 中国档案杂志社主办1951年创刊欢迎来到中国档案网 !2021年02月25日    星期四

学术科研

智慧档案馆(室)—— 我国档案馆(室) 建设的新方向

作者: 来源:中国档案网 发表时间:2021-01-16 分享到:

在大数据技术和人工智能技术已经把我国社会推向智慧社会或智能化社会的今天,在大多数档案馆(室)正在大力开展档案数字化,一部分档案馆(室)已被认证为数字档案馆(室)的新形势下,我国档案馆(室)建设的新方向或新目标是什么?我认为是智慧档案馆(室)。

一、什么是智慧档案馆(室)

我这里所说的智慧档案馆(室),同之前很多人所说的智慧档案馆(室),在概念上、内涵上及侧重点上,都是不同的。

2019年7月和8月,我不止一次地在有关学术会议上提出我对智慧档案馆(室)的新理解,并同时也提出了与之密切相关的“档案数据化”这一新概念。在此之前,关于智慧档案馆(室)的概念,业界已经使用了一段时间,但主要还是聚焦于怎样用自动化、智能化技术去实现档案保管环境的自动控制、档案实体的自动跟踪、档案装具的自动移动、档案信息系统的自动集成与升级、档案工作业务流程的自动整合与再造等。总之,其侧重的是档案馆(室)的外在管理或物理管理,即:温湿度及有毒有害气体的管理、自动报警、自动灭火;案卷和资料的自动跟踪、自动调取、自动归还;人流与物流的自动监控;信息流的顺畅便捷等。但是,我所提出的智慧档案馆(室),却不是这样的。

我所说的智慧档案馆(室),首先应该把档案或档案数字化图像的内容全文输入电脑,即把档案全部“数据化”,让档案内容全都变成可被电脑全文检索、任意组合、全部关联、重新生成、主动推送的数据,使档案里所包含的智慧,经过电脑处理,成为人类智慧的一部分,成为人的外脑;其次,它也能对档案实体、档案装具、档案环境、档案人流、档案工作各环节等进行智能化、自动化、联动化的管理。它所侧重的是档案内容的智慧性摄取或智慧管理、知识管理。智慧档案馆是继传统档案馆(室)及数字档案馆(室)之后的第三代档案馆(室),是档案馆(室)的3.0版。它可以说是目前已建设了20多年的数字档案馆(室)的升级版,也可以说是已开展了30多年的档案信息化的升级版。

为什么说智慧档案馆(室)是对数字档案馆(室)的升级呢?根本原因在于数字档案馆(室)对传统的纸质档案进行图像扫描,每页档案只是一张可供阅读的图像,每件档案只有题名、形成者、形成时间、主题词或关键词等信息是可由电脑编辑处理的数据,而大量的扫描图像都是不可编辑的,档案的全文内容仍要人工来阅读、检索、组合、分析、挖掘。而智慧档案馆(室)的所有文字记录的档案甚至声像档案,都已经经过识别或转换成了电脑可检索的电子文档,所有文字都已经被输入电脑,成为电脑可用大数据挖掘技术任意处理的信息或数据。这是数字档案馆(室)和智慧档案馆(室)的根本区别所在,也是智慧档案馆(室)比之数字档案馆(室)堪称升级换代的原因所在。

为什么说智慧档案馆(室)也是对档案信息化的升级呢?我们先看看信息和智慧两个词的含义。在现代科学中,信息指事物发出的消息、指令、数据、符号等所包含的内容。而智慧则主要指人辨析判断、发明创造的能力,它是一种高级的综合能力,包含感知、记忆、理解、联想、逻辑、辨别、计算、分析、判断、决定等多种能力。从这两个词的含义当中我们可以看出:信息是比较低层次的东西,只表示事物的客观状态;而智慧则是比信息层次更高的东西,它包含了对事物状态的理解、联想、逻辑、分析、判断、决定等更深刻、更高一级的认知。或者说,信息只是未经处理的数据,智慧则是对数据进行加工处理,具有了逻辑性、关联性、推理性、创造性等,已经不等于原来的信息了。智慧是综合处理后的信息,是互相关联的信息,是重新生成的信息,是处理了的、加工过的、升级了的信息。如果打个比方,信息是面粉,而智慧则是面粉做成的馒头、包子、饺子、面包等面粉加工品;信息是大米,而智慧则是大米做成的米饭、米线、年糕、发糕等大米加工品。这就是信息和智慧的区别所在,是档案信息化和智慧档案馆(室)的根本区别所在,也是智慧档案馆(室)比之档案信息化堪称升级换代的原因所在。

从智慧和信息的区别来看,信息基本相当于数据。数据的含义是进行各种统计、计算、科学研究和技术设计所依据的数值,是事实或观察的结果,是用于表示客观事物的未经加工的原始素材,并被认为是信息的表现形式和载体。所以,数据基本上跟信息是一样的东西。随着大数据技术的出现,现在数据一词很流行,几乎和信息一词在20世纪80年代的流行程度一样。彼时是无事物无信息,现今则是无事物无数据;彼时是信息一词泛化,而现今又是数据一词泛化。

智慧档案馆(室)首先要把档案数据化或信息化。档案数据化是相对于之前的档案数字化而言的,是我在2019年的一次讲话中为了区别于此前人们常说的档案数字化而提出来的。其实,它的意思就是把纸质档案或纸质档案数字化图像中的每个字都转换成电脑可以处理的数据或信息,并输入电脑,进入数据库,供人们通过大数据技术进行挖掘和处理。数据是智慧档案馆(室)的基础。没有数据,特别是没有档案内容的所有数据,就不能把数据或信息变成智慧。也可以说,智慧档案馆(室)是基于数据的,有了数据和各种数据处理技术,才有智慧档案馆(室)。所以,没有数据就谈不上建设智慧档案馆(室)。

智慧档案馆(室)的数据应包括电脑可检索的档案全文数据,即:信息流数据;档案实体、档案装具、档案设备等方面的数据,即物流数据;档案工作者、档案利用者、档案参观者等方面的数据,即人流数据;档案库房温度、湿度及各种有毒有害气体浓度,水、火、菌、虫、鼠等各种环境或条件的数据,即环境数据。也就是说,“智慧档案馆(室)的数据=档案全文数据+物流数据+人流数据+环境数据”。在这些数据中,档案全文数据是最关键、最重要、最根本、具有决定性的部分。建设智慧档案馆(室),最重要的是运用各种手段尽快地把纸质档案和纸质档案数字化图像及录音录像档案等全部转化为电脑可以检索的电子文档,把档案里的前人智慧挖掘出来,转化为今人的智慧,这就是档案数据化,即档案的数据转化工作。档案数据化是智慧档案馆(室)建设的要义和核心。

目前,档案数据化或是把档案由文字、声音转化为数据的途径至少有以下几种:第一种,对原件上文字为铅排、打印的纸质档案以及原件上文字虽然手写但又十分工整的档案,用 OCR 识别技术进行转化,其准确率可在99%以上;第二种,对原件上文字为手写且 OCR 技术不易识别的档案,用特殊的手写字识别技术进行转化,其准确率目前最高可达95%左右;第三种,用人工录入电脑的办法转化;第四种,用人工朗读文字并通过音频技术把声音转换成文字,其准确率也可达95%左右。需要指出的是,目前这4种转化方式都需要人工进行校核,都不能100%准确。在转化过程中,文字能全部准确转化出来最好,如不能也不要紧。因为档案中并不是每个字都具有数据意义或检索价值的,有的虚词、连接词、形容词、装饰词、重复强调语等,即使这些字转化不出来或不准确,也并不会太大影响整份档案的实际应用。对全文数据来说,当然是越多越好,但也不是每个字都不能少,或少一个字就不行。举一个例子:“张建国,他出生于一九四九年,也就是新中国成立的那一年。”这句话共24个字,但真正具有实际检索意义的,只有“张建国,一九四九年出生”这10个字。只要把这10个关键的字转化出来了,这句话的基本意思或基本要素、主要信息、核心要义就有了,其他14个字,也就是一半以上的部分,能转化出来当然更好,即使不能转化出来也不太影响全句主要意思和基本信息的表达。因此,现有的各种数据转化技术都可以先进行应用,并在应用中不断提高其转化准确率,而不必等到某种技术完全成熟了再去用。

智慧档案馆(室),光有数据还不行,还必须有数据挖掘和主动推送技术。数据挖掘就是通过算法从数据库的大量数据中展开搜索,找出隐含的、先前未知的、有潜在价值的信息。为实现上述目标,需要利用统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别、人工智能、可视化等多种技术手段。数据挖掘是通过分析每个数据,从大量数据中找出规律、找出相互联系、找出因果关系的技术。它有3个步骤:第一步是数据准备;第二步是对规律和关系的寻找;第三步是规律和关系的表示。数据挖掘的主要任务是分析,比如关联分析、聚类分析、分类分析、异常分析、特异群组分析、演变分析等。由此看来,数据挖掘技术实际上就是对大数据进行智慧性处理的技术,是把信息变成智慧的技术,是让蕴含在档案里的智慧更加显性、更加集中、更加智慧的技术。通过数据挖掘技术,能够挖掘出档案的潜在价值和潜在用户,挖掘出用户的潜在需求,从而大大提高档案的价值。更为重要的是还能对挖掘出来的数据进行关联性推送、自主推送、定向推送,这就是主动推送技术。如果说档案全文数据是建立智慧档案馆(室)的基础和前提,那么,数据挖掘与主动推送技术就是建立智慧档案馆(室)的核心和关键。如果说,智慧档案馆(室)的全部要素要是100分的话,那么在我看来,档案全文数据和数据挖掘、主动推送技术,二者要各占40分,其他各种要素加起来也就只占20分。因为其他要素大多在数字档案馆(室)中已经具备了,有的甚至还会成为冗余,需要增加的新技术既不太多也不太难,而且更不是关键。

为什么说在智慧档案馆(室)中档案全文数据和数据挖掘及主动推送技术缺一不可呢?因为只有数据的档案馆(室)还不能称为智慧档案馆(室),也还不是真正的智慧档案馆(室)。数据只

是信息,没有数据挖掘技术去处理它,它仍然成不了智慧,或者说称不上是真正的智慧。必须依靠数据挖掘技术,通过各种具有针对性的算法,对数据进行关联分析、聚类或分类分析、异常或异类分析、演变分析、对比分析等,才能让数据产生关联,形成联系和连接,形成趋势和走向,看出规律和变异,从而生成经过加工、集合、升华的新信息,甚至作出判断和备选方案,变成智慧。没有数据挖掘与自主推送技术,数据就只是孤岛,只是孤零零的数字或文字。打个比方,数据是米,数据挖掘与主动推送技术是厨师,只有米而没有厨师,就做不出香喷喷的米饭;再打个比方,数据是线,数据挖掘与自主推送技术是绣娘,没有绣娘,就绣不出好看的绣品。离开数据挖掘与主动推送技术,数据永远是一;而有了数据挖掘与主动推送技术,它就能够问一知十、问一知百,甚至知千知万,而且还主动告诉你,自动推送给你,有针对性地推荐给你。因为它已将相关的数据和你以往的利用喜好、利用需求联接起来了。比如,我们从网上查一个人的简历,不但可以找到这个人的简历,这个人所有在网络中的文章、讲话内容、活动、照片、音频、视频等,也会一同被显示出来,甚至包括跟他同名的人、同职务的人、有关联的人的信息也可以被呈现出来。这和数字档案馆(室)是有很大不同的。数字档案馆(室)是不查不知、查一知一的,而智慧档案馆(室)则是一查就全知,查一而知道所有或很多的。而这个差异,主要就是由数据挖掘与主动推送技术造成的。当然,除了数据和数据挖掘与推送技术外,智慧档案馆(室)还应该有数据采集、数据存储、数据传输等新型技术和设备作为支撑。

综上所述,我们就可以知道“智慧档案馆(室)=档案全文数据+数据挖掘与推送技术+数据采集系统+数据存储系统+数据传输系统”。智慧档案馆(室)必须有3个要素:一是以档案全文数据为核心,包括其他各种档案业务和档案工作数据的大数据;二是以数据挖掘与主动推送技术为核心,包括数据采集、数据感知、数据存储、数据传输等的数据处理及主动推送技术;三是可以将档案实体、档案装具、档案环境、档案业务系统、档案人员、档案利用者连接起来的物联网系统。所以,也可以说“智慧档案馆=档案数据+数据挖掘与推送技术+物联网”。这就是我所理解的智慧档案馆(室),它和现在其他人所提出、所理解、所认为、所定义的智慧档案馆(室)不同之处有3点:一是强调了档案的全文数据化,而别人没提到。二是强调了数据挖掘与主动推送技术,别人也没提到。这两点我认为是智慧档案馆(室)的主要标志和主要内容,是智慧档案馆(室)的灵魂和核心,没有这两点,智慧档案馆(室)是不充分的、名不符实的。三是别人强调了对档案实体的自动调取、跟踪监控,对档案柜架的自主移动、自动开闭,对档案保管环境的自动监控、自主调节等,而我认为在智慧档案馆(室)中,这些并不是必要的,有些甚至还是冗余的。

二、为什么现在要建设智慧档案馆(室)

我们为什么现在要迫切地提出建设智慧档案馆(室)呢?因为现在有着5个方面的有利条件和现实基础。

1.智慧社会的到来,为智慧档案馆(室)建设营造了外部环境

“智慧社会”的提法,最早源于IBM在2008年11月提出的“智慧地球”的概念,2009年时任美国总统奥巴马运用了这个提法后,这个概念迅速蹿红。它包括三个要素,即物联化、互联化、智能化。这个概念提出后,很多城市又提出了“智慧城市”的概念,并开始了智慧城市的建设和评选,我国的许多城市就在积极地建设智慧型城市。2019年我在雄安看到了无人驾驶汽车、无人酒店、无人超市等,切切实实地感受到了智慧城市的雏形。伴随着智慧城市的还有智慧小区、智慧楼宇、智慧家居等。此外,智慧教育、智慧交通、智慧医疗、智慧司法、智慧旅游、智慧人文、智慧物流等也已经扑面而来,各行各业、方方面面都在以智慧为引领,推进智能化建设。正是在此基础上,党的十九大提出了“智慧社会”这一新的理念,智慧社会的到来为智慧档案馆(室)建设营造了很好的社会环境,同时也增添了现实的迫切性。

2.人工智能和数据挖掘推送为智慧档案馆(室)提供了关键技术

(1)先看人工智能技术

最近几年我们先后看到,“阿尔法狗”这款智能人工软件,先是在2017年以4:1战胜了前世界围棋第一人李世石九段。这是人工智能研究的一个标志性成就和里程碑式事件。之后,它又在2018年击败了史上最年轻的“五冠王”、中国围棋九段职业棋手柯洁,再次显示了人工智能的威力。紧接着,在中央电视台“中国诗词大会”节目中出现了一款输入了几万首诗词的机器人,与诗词高手们同台竞赛,主持人任意出一个诗题,机器人都能根据题意写出诗来,而且水平不亚于人类,与同台选手的写诗水平难分伯仲。同样在2018年,我国应用了机器人播音。它能模仿任何人进行播音,只要把某人的声音和影像资料输进去,它就能模仿这个人进行播音,其动作、表情、声音都惟妙惟肖。现在,科大讯飞可以根据声纹来让机器人模仿任何人的声音,只要输入不到一分钟的真人声音,机器人即可模仿出可以乱真的模拟声音。

2019年11月,司法部在南京召开有关“智慧司法”的会议,重庆市司法局展示了法律服务智能机器人“大牛”,它的服务速度和准确度已多次战胜人类律师。最近我在参观科大讯飞时得知,他们研制的智能机器人参加律师资格考试,竟然胜过90%以上的人类考生;智能机器人教师能够批改考试卷,并且比人类教师批改得更加客观公正,其评分一致率在中考试卷评分中普遍高于人类教师5%左右,在高考试卷评分中普遍高于人类教师10%左右;智能机器人医生的诊断水平也高于很多人类医生,因而被推荐到全国很多基层医院做医生助手使用。

由上可见,人工智能技术的发展,已使得机器人不但具有“智慧”,而且具有高于人类平均水平或高于普通人的“智慧”。以前,我们以为机器人只能干体力活,不能干智力活,但现在人工智能技术的发展,已经打破我们的这个认识。

(2)再看数据挖掘推送技术

近年来,我切实感受到数据挖掘推送技术的发展。它不但挖掘出很多新信息,而且还定向地、主动地向人进行推送。比如,我用手机和电脑录入文字,刚输入一个字,输入法软件就会弹出由这个字组成的所有词或词组供我选择;我用搜索引擎查某个词,也会出来一连串与之相关联的自动推送。为什么在新闻类App上会有很多我想看的消息?那是App 根据我过去的阅读内容、阅读习惯而主动推送给我的。这些都是运用算法等数据挖掘推送技术来完成的。

定向推送技术最知名的应用是所谓“俄罗斯干预美国大选”。据说俄罗斯运用定向推送技术,向美国各种不同的人群,定向地、主动地推送美国总统候选人有关信息,对选民进行“洗脑”和引导,影响选民对候选人的好恶。

由上可见,数据挖掘与推送技术发展得也出乎想象地快,应用得也出乎意料地普遍。今天,可能我们一不小心就会被别人“定向推送”,并加以左右甚至成功“洗脑”了。

人工智能技术也好,数据挖掘推送技术也好,都是把数据变成智慧的技术。这些技术的应用和发展,为建设智慧档案馆(室)提供了关键性的技术,让智慧档案馆(室)不再是一个空话或标签,而是能够变成现实、得以实现、成为实际。在它们没有出现的时候,人们讲智慧档案馆(室),只能是表面的、浅层次的、名义上的,甚至是误读的,而当它们出现以后,建设智慧档案馆(室)就可以名副其实了,可以建成实质意义上的智慧档案馆(室)。这些技术的出现,是我这两年开始提出建设智慧档案馆(室)的一个重要主因。

3.信息识别转化为智慧档案馆(室)建设提供了技术手段

以前,传统的纸质和声像档案要转化为电脑可检索的数据,实现手段只有一个— 人工输入电脑。尽管有汉语拼音输入、笔画输入、手写输入等方法,但输入速度都比较慢。之后,又不断地发展出一些新的信息识别转化技术。

(1)OCR识别技术

目前只能用于印刷体或手写特别工整的文字,其识别率可达99%以上。一页印刷的或手写工整的档案扫描进电脑,通过软件即可把它转化成电脑可以检索的文字。前提是档案页面要整洁,没有凌乱的笔画,否则识别率就会降低。

(2)手写字扫描识别技术

为了解决 OCR 技术识别不了手写档案的问题,人们又专门研究出手写字的扫描识别技术。据我所知,科大讯飞的扫描识别技术在识别民国档案上的繁体手写字时,准确率已可达80%以上。银雁科技的简体手写字识别技术的准确率也能达90%左右。前几年,中国科学院自动化研究所的扫描识别技术在扫描识别快递上的简体手写字时,准确率已可达95%以上。随着扫描识别的不断积累,识别率肯定还会继续地不断提高,将来一定能达到目前  OCR  对印刷体字的识别水平。

(3)声音转化文字技术

也就是通过人来读档案,机器再把人的声音转化成文字。只要读音准确,机器基本能“听声出字”,准确率也很高,它的速度是电脑手工输入的一倍以上。前不久,我在科大讯飞目睹了一场“嘴”和“手”的比赛:国内一些数字化公司的录入快手之间先进行比赛,产生的冠军再与讯飞的声音录入员比赛,结果“人嘴”完胜了“人手”,声音转化文字的速度大大快于计算机手工录入文字的速度。

(4)人脸识别技术

主要是根据人的面部特征,把照片、录像中的人物识别出是谁来。

智慧档案馆(室)建设,关键在于建立档案全文数据;建立档案全文数据,关键又在于把档案里电脑不能检索的文字、声音、图像,转化成可检索的数据。当有了以上这些途径的识别转化技术以后,档案数据化就不再是不可能的了,而是变成完全可能了。这些技术的应用和发展,也是我在今天提出建设智慧档案馆(室)的又一个主要原因。

4.档案行业对建设智慧档案馆(室)有了更高的积极性,使智慧档案馆(室)建设有了实现主体

从档案部门来说,有些档案室十几年前就通过手工录入的方法,对档案进行了“数据化”,把档案中的所有文字转化成了电脑可以检索的数据。只可惜那时尚无数据挖掘技术,因而未对这些数据进行智慧性开发、关联性挖掘和自主式推送。2014年以来,浙江省和其他一些地方的档案馆(室)在数字档案馆(室)的基础上,对档案实体、档案保管条件等方面进行智能化、自动化管理,进行了他们所自定义的智慧档案馆(室)建设。

从档案服务企业来说,科大讯飞2018年以来分别同国家档案局、浙江省档案馆等单位签署了包括人工智能应用等“智慧档案”建设在内的战略合作协议,并在相关档案馆进行了纸质档案数据化建设的试验。还有一些档案服务企业,最近几年也提出了基于档案实体自动化跟踪和管理、档案装具自动性移动、档案温湿度自动控制、档案安全自动报警等的所谓“智慧服务”。

档案馆(室)的积极性会带动起档案服务企业的积极性和创造性。因为档案馆(室)有建设智慧档案的积极性,则会产生智慧档案的需求;智慧档案的需求,则会引发档案服务企业产生积极性,引导企业的技术和人力向这个方面发展、向这个方向投入。档案馆(室)是需方,他们有需求,但缺技术、缺人力;档案服务企业是供方,他们有技术、有人力,但缺市场、缺用武之地。现在,需方和供方这双方都产生了并且双方都有积极性,就可以自然结合、互利共赢。他们的结合,可以很快让智慧档案变成现实,让智慧档案馆(室)建设起步、起飞。他们的积极性,让我看到了智慧档案馆(室)建设的可行性和现实性。

5.在推进纸质档案数字化的过程中,不厘清思路将造成人力和财力的浪费

档案数据化之于档案数字化,智慧档案馆(室)之于数字档案馆(室),是迭代式的更新和发展,是覆盖性的提高和增强,是管理方式的根本性变化、转向性发展。不少工作在数字档案馆(室)建设中是必要项,而在智慧档案馆(室)中则会成为非必要项,成为闲置的、冗余的、无用的东西。如果我们尽早开展档案数据化,则可以不做这些不久将会无用的工作,避免不必要的人力、物力和时间的浪费。比如,我在2019年年底到一个省级档案馆参观时,看到他们正在大规模地开展档案数字化,其中有几十个人都在搞档案题名的著录。但是在智慧档案条件下,档案已经全文数据化,每个字都可以供电脑任意检索了,现在著录的题名、责任者、文种、形成时间等,就没有单独存在的意义了,因为它已经包含在全文数据当中了。一份档案的每句话、每个词、每个字,都可被检索出来,无需人工再去重新拟写标题并著录各项主要内容。前不久,在一次观看人工著录标题与录音转化著录标题的比赛时,主持人曾问我,这种人工著录标题将来的前景怎样?我就回答了3个字:“会消失!”因为档案全文数据化后,就无需再做现在这些费时费力的标题著录工作了。还有一些档案馆(室)热衷于搞档案实体的自动跟踪、监控和管理,在这方面花人力、花时间、花经费,其实也大可不必。因为档案数字化或数据化以后,纸质档案实体应全部进入封存状态,一般情况下,在库房内不会再移动,无需再去自动跟踪、监视、管理它。所以,人们今天正在费人、费力、费钱去做的一些事,将在档案数据化后失去意义。因此,各个档案馆(室)越早开展档案数据化工作,就越能避免更多重复劳动或无效劳动,越能避免花更多冤枉钱,越能更好地提高我们的工作水平。

以上这些,都为智慧档案馆(室)建设提供了各方面的条件,使智慧档案馆(室)建设具有了现实的可行性,也有了实际的可操作性,甚至还有了紧迫性。因为“智慧化”是目前的大势所趋,已不得不行。因此,智慧档案应该是我国档案馆(室)建设和档案事业发展的新方向、新目标、新任务、新出路。

三、怎样建设智慧档案馆(室)

1.切实转变思想观念

转变思想观念是建设智慧档案馆(室)的第一步,没有这一步就不可能建设智慧档案馆(室)。转变思想观念主要是要树立以下几种新观念:

(1)树立数据越多越智慧的观念

这是一种全新的思想观念,是和我们过去的传统观念完全不同的新观念。因为在有了数据处理技术后,数据越多就越接近事物的原貌和全貌,智能机器人就越智慧、越聪明,回答的问题和给出的方案就越准确、越精确。比如,拥有1亿个用户的导航系统,肯定比只有1000万个用户的导航系统更准确;存有10万首诗的机器人,肯定比只存有1万首诗的机器人更会作诗;存有100年气象档案的机器人,肯定比只存有10年气象档案的机器人预报天气更准确。这就说明,数据越多越智慧。

(2)树立数据就是财富的观念

早在2014年,我参观阿里巴巴公司时,相关负责人就告诉我:“对我们来说,数据不是包袱,而是财富。”我认为,在大数据时代,数据对任何单位都是正资产而不是负资产,都是一笔财富而不是一个包袱。数据越多就越智慧、越有价值、越是真正的财富。为什么现在有很多公司免费让你用它的软件,实际上就是为了“攒数据”。拥有的数据越多,这家公司就越值钱,上市后的市值就越高,越有人向它投资。将来决定同类智能机器人谁更精确、谁更智慧、谁更值钱,主要是看谁输入的数据更多。所以,数据就是财富,在今天不但是理念和口号,而且是活生生的现实,是我们过去所从未见过、从未认识到的。

(3)树立数据都是档案的观念

由于数据都是记录,而记录就是档案,所以,数据也是档案。档案工作者必须尽早地认识到数据都是档案,尽早地把数据看作档案,并把数据当作档案去收集、去管理、去服务。这样,档案馆(室)才能不丧失数据并拥有数据,档案部门才能不被数据部门所取代。否则,档案馆(室)将失去最大量、最重要的档案资源—数据,档案工作和档案部门也将逐步被数据工作、数据部门所覆盖并取代。

(4)树立“数据=档案=财富”的观念

既然上面我已说到两个等式:“数据=财富”“数据=档案”,那么我们也可以推导出第三个等式:“档案=财富”,并可以把这三者画等号,得出“数据=档案=财富”的结论。在大数据时代、智能化时代、智慧时代,档案工作者一定要树立“数据=档案=财富”的新观念,不要再认为数据不是档案,也不要认为数据和档案不是财富。否则,档案数据化和智慧档案馆(室)建设就缺少了理论依据和精神动力,就会增加认识上和行动上的阻力。

(5)树立合作开展档案数据化和数据挖掘的观念

有些档案部门的同志,一想到档案数据化工程那么巨大,一想到数据挖掘和主动推送技术那么高深艰难,档案部门又缺少这方面的人才,就会打退堂鼓,不敢去想,更不敢去干。实际上,这些工作大都可以外包出去,让科技服务企业帮你去干,让专家帮你去干,甚至花钱买相关的软件和设备,组织人去干。这样你还觉得难吗?过去,档案数字化或者说是数字档案馆(室)的建设,不就是这么干起来、干出来的吗?下一步的档案数据化和数据挖掘推送,或者说是智慧档案馆(室)建设,也完全可以这么干,甚至可以说也必然会这么去干。目前,有的公司有这样的积极性,有的公司有这样的现成技术和现成设备,只要有档案馆(室)愿意去做,马上就会有人同你合作、帮你去干,直到帮你干成、帮你干好。

2.及时收集新形成的档案数据

目前,在各个档案形成单位,文字方面的档案都是电子档案,都可自动成为电脑任意处理的数据,但还有不少活动还完全没有记录,或者虽有录音、录像等记录,但没有转化为文字,没有成为电脑可处理的数据。这就造成了新数据的缺失。不久前,我在科大讯飞看到了他们的一些设备,很适合于帮助各个档案形成单位及时地收集今后所有新形成的档案数据。比如,过去领导外出视察、调研活动中的即席谈话,无人录音或录像,这些谈话的原始数据就随即消失了,只能靠后人零星的回忆。而现在科大讯飞的录音设备,让领导装在衣袋里或夹在衣服上,所有讲话都录下声音来,形成录音档案,同时又由设备转化成文字记录,形成电子档案。又比如,过去开会,大多数靠人工记录,每个人的讲话都记录不全,甚至记录不准。少数的有录音甚至录像,但录音、录像都没有及时整理成文字,仍然不能成为电脑可以处理的数据。而现在科大讯飞的设备可以把录音、录像中的讲话内容,全部都转化为文字,让它成为电脑可处理的数据。再比如,一些档案馆搞口述史记录,对相关人员进行录音、录像,但这些声音也没有及时转化成文字即电脑可处理的数据。他们也可借助科大讯飞的相关设备和技术,及时把这些声音全部转化为文字记录,转化为数据。这也可以叫“智慧建立档案”或“智慧收集档案”吧!它可以帮助人们把档案建立得更丰富,把数据搜集得更广泛。

3.积极开展非电子档案的数据化工作

目前,在绝大多数档案馆(室)中,纸质档案和音像档案这些非电子档案普遍都没有开展数据化工作,即电脑可处理文字的转化工作。而这是建设智慧档案馆(室)的前提和关键,也是工作量最大的一项工作,是最实的一招。各个档案馆(室)都要以最坚定的信心、最大的力量去完成这项工作。

(1)纸质档案或其数字化图像数据化

已开放档案可以先搞数据化,因为它可以外包给档案数据化企业去做。涉密档案可以先不搞数据化,有特殊需要的可采购设备,用自己人去搞。纸质档案数据化,可以各种技术并用,可用 OCR 识别技术转化的,则用 OCR 识别技术转化成数据,因为它速度最快,成本也最低。不能用 OCR 识别的,还可用其他技术和方法去转化,一种是手写字识别技术,即把手写档案扫描进电脑,电脑通过软件识别成它可处理的文字;另一种是声音转化技术,即由人把手写档案中的每个字读出准确的读音来,设备通过声音转化成文字即电脑可处理的数据;再一种是电脑手工录入技术,即由录入员把档案上的文字通过拼音或字码录入电脑,转化成文字。以上这4种方法,档案馆(室)可以根据自己的档案情况和经费情况等,或单独运用,或联合使用,或多种并用。只要咬定青山不放松,用钉钉子的精神,一年接着一年干,坚持数年,必有大成。

(2)音像档案数据化

就是把录音、录像档案中的声音通过声音识别转化技术或软件,全部自动地转化成文字即电脑可处理的数据,并把它导入数据库。这样,音像档案中的所有声音内容就可以全部数据化了。这项技术不但可以把音像档案中的文字全部转化为数据,让它成为人类智慧的一部分,而且还可以通过声音识别并找出数据库中某个人的所有声音。现在,很多年代久远的音像档案中有些声音已不知道发言者是谁了,但只要有一份音像档案知道是谁的,设备就可以根据这个已知人的声音,把他的其他音像档案都识别出来,让人们知道那些也是这个人讲的。并且设备还可以根据文字找到声音在档案中的位置,利用者通过文字即数据内容可随即听到某段声音或看到某段录像。

(3)照片、录像档案中的人物数据化

这是通过人脸识别技术来完成的。在很多过去的照片和影像中,有的人对得上名字,有的人则对不上名字,人物数据没被挖掘出来。现在,通过相关的人脸识别软件,输入电脑的所有照片和影像中的人物,只要有一处被对上过名字,那么该人物在其他所有场景中都可以被准确地识别出来,并对上名字。这样,照片档案和影像档案中的很多人物就被自动识别出来了,“无名氏”就变成了“有名氏”,人物的数据就会大大地扩充,变得更为广泛。

通过这几方面工作,纸质档案、音像档案、照片档案中的信息就可以完成数据化,并进入相应的大数据库,成为被电脑所挖掘和推送的数据,成为智慧档案馆(室)的源头和储备。数据储备越多,档案馆(室)就越智慧、越有价值。

4.广泛收集数据

建设智慧档案馆(室),数据是基础。各个档案馆(室)要运用各种数据自动收集技术,广泛收集各种数据。

(1)收集档案内容数据

也就是档案的全文数据。要运用各种技术,把纸质档案、照片档案、音像档案中能够转化的,全部转化为电脑可处理的数据,并把它们同电子档案数据汇合在一起,建立起档案全文数据库。这是基础,是重点,是最要紧、最关键的数据。收集得越早越好,收集得越广泛、越齐全越好。除档案外,报纸、杂志、内部出版物等资料的数据将来也可收集进来,它们对档案数据也是重要的补充。

(2)档案实体数据

即档案的编号、数量、位置、被移动情况、被利用情况、损坏或修复情况等方面的数据。在智慧档案馆(室)里,档案实体是基本不动的,对它的监控不需要太复杂,主要记录它的位置、数量、动用等就可以了。

(3)档案环境数据

即档案库房的温湿度、有毒有害气体浓度、灰尘浓度、烟雾浓度等数据。这些数据,各地可以因地制宜,主要收集有损档案安全的主要数据。比如,一些温湿度变化不足以影响档案安全的地区,就无需建立温度和湿度的数据。

(4)人流数据

包括档案工作者人数、档案利用者人数、档案参观者人数、工作交流者人数,以及他们的位置等。

(5)其他数据

比如,档案装具的数量及位置,库房的数量及位置,工作用房和技术用房的数量及位置,档案设施设备的数量、位置、年限等。

档案馆(室)只有把各方面数据都收集齐全,才能根据这些数据进行智慧性管理。拥有以上这些数据后,通过利用大数据技术和物联网系统就可以实现档案馆(室)中的信息与电脑、人与电脑、物品或设备与电脑,以及信息与信息、人与人、物与物、人与信息、人与物、信息与物等等之间的互联互通、互感互知。

5.千方百计确保数据安全

有了数据,还要用各种方法保证数据的安全。因为,数据是智慧档案馆(室)的灵魂,数据一旦丢失,档案馆(室)就只剩下外壳。

(1)对全部数据在异地备份一套以上

数据都是电子的,电子数据的最大弱点是不安全因素很多,安全系数比较低,安全风险比较大。为了确保它的安全,就要对它全部进行异地备份,在几百公里以外的多处地方备份保存一套以上,从而确保特殊情况导致数据丢失后,能有备份数据顶上来,不会造成数据的“全军覆没”。

(2)应用自动报警设备

要普遍应用防火、防水、防盗、防远程攻击等的自动报警设备。在高温、高湿地区还要有高温、高湿的自动报警与调控设备。

(3)应用自动灭火装置

数据库房要用防火、防水材料进行隔离,而且一定要有自动灭火装置,以确保即使库房发生火灾也能自动扑灭,不致损毁数据。

(4)设置防远程攻击的“防火墙”

电子数据的一个软肋是黑客可以通过网络发起远程攻击,窃取、篡改、调换、锁住或销毁数据。所以,数据库房必须采用最先进的信息安保技术和设备,为数据建立“防火墙”“安全盾”“生命线”。

6.积极采用数据挖掘推送技术

对智慧档案馆(室)来说,数据是它的硬件,数据挖掘推送技术则是其软件。离开这个软件,智慧档案不能真正实现。各级档案馆(室)要开始重视这方面的技术、人才和企业。各级档案馆(室)要眼睛向外,寻找具有数据挖掘推送技术背景的人才和企业,同他们开展合作,先对目前已有现成数据的电子档案运用算法进行挖掘和推送。以此为基础,先建立智慧档案馆(室)的框架和基础。既可以在签订保密协议、确保数据不外泄的基础上,把数据挖掘与推送外包给有关企业,就像过去搞档案数字化和信息化一样。当然,各级档案馆(室)也可以引进相关人才,自己来搞,特别在招收新录用人才时,要招收一些数据挖掘推送方面的人才,就像过去招收计算机人才一样。

档案服务企业更要注重数据挖掘推送技术,尽早地研究这项技术,并开展这项工作。这一技术将来的应用前景会很大,因为它将像以往的计算机技术一样,全面地覆盖全国所有的档案馆(室),将来真正风行全国、风行世界的,将是这项技术和人才。

高等学校要尽早开设数据挖掘推送技术方面课程,培养这方面的人才。因为这方面人才现在社会上很急需。未来几年、十几年中,数据工程师必然会像十几年前的网络工程师一样稀缺和紧俏。档案服务企业和档案馆(室)可以和高校联合培养或在高校定向培养这方面人才,并优先录用这方面人才。

7.尽快地主动推送档案信息

智慧档案馆(室)在有了一些基础后就要积极地投入应用,主动地向领导、向各方面利用者推送现有的档案数据。比如,领导要本地某一年粮食方面的数据,你不但迅速给他提供出这一年的粮食数据,而且还给他主动推送出本地历年的粮食数据及增减趋势,今年粮食数据在历年中的位置和比较,再推送出跟粮食有关的本地历年油料、棉花、水果、蔬菜、气象、灾害等数据,外地这一年和历年的粮食数据,本地这一年和历年同外地的比较等。再比如,某利用者要用张三的参军证,你不但给他提供出张三的参军证,而且还主动推送出张三在部队的立功证、受奖证、培训证、学历证、成果证明以及他参军前的毕业证、参军后的转业证、退伍证,和他同一批参军的其他人的参军证等。这就发挥出智慧档案馆(室)的优势和作用来了,这就显示出智慧档案馆(室)同以前两代档案馆(室)的不同和高级来了。以前的馆或室只是要什么给什么,要一只给一,而智慧档案馆(室),则是要什么都不只是给出什么,还给出其他相关的一切,即“1+N”,这个“N”,就是根据他以前的利用经历以及这次利用的主要内容而主动推送、自动推送、无偿推送的。在智慧档案馆(室)建设中,不要等全部建好了才推送,而要边建边推送,建多少数据推送多少数据。这样,一方面是让智慧档案馆(室)建设早日见成效,并争取到更大的支持;另一方面也是通过较少数据的推送,来发现问题、吸取教训,堵塞漏洞、取得经验,让数据挖掘推送软件更好用,让智慧档案馆(室)更智慧。

8.积极采用物联网技术

物联网技术可以把档案馆(室)的人、物、信息、环境等方面全部连接起来,实现自动感知和自动调控。档案工作者不管身在何处,都可用手机掌控一切。

建设智慧档案馆(室)除了以上这些工作之外,肯定还有其他事情要做,我不再一一列举了。

在建设智慧档案馆(室)过程中,档案工作者要敢于想、善于想,想我们的各方面需求,并向合作方提出我们的需求。甚至可以说,在智慧档案馆(室)建设中,档案人的主要任务就是提需求。在这个时代,只有想不到而没有做不到的。只要我们提出需求,就会有人帮助我们实现需求。档案服务企业也要帮助档案人想,主动地针对他们的需要点、实用点、兴奋点、难点和痛点提出解决方案。只要档案部门与档案服务企业同心协力,共同联手,智慧档案馆(室)就一定能早日地、大批地并最终全部地建成。

那将是我国档案工作、档案事业一个新阶段的开始!

那将是我这个“老”档案人“新”梦想的实现!

作者单位:国家档案局