纸质档案数字化是实现档案信息化管理、提升档案利用效率的关键步骤,它涵盖了多个不可或缺的环节,每个环节都对最终数字化成果的质量和可用性起着决定性作用。清晰地掌握这些环节,无论是对于档案管理的新手,还是有经验的工作人员,都能有效保障数字化工作的顺利开展。
一、前期准备环节
档案整理:新手需要对纸质档案进行全面梳理,按照档案的类别、年度、保管期限等标准进行分类和排序。例如,将文书档案、科技档案、会计档案等不同类型的档案区分开来,再按年份对同一类型档案进行排序,方便后续工作有序进行。同时,仔细检查每份档案的完整性,查看是否存在缺页、倒页、破损等情况。若发现破损档案,需使用专用的档案修复材料,如无酸纸、胶水等,对档案进行修复。修复过程要尽量保持档案原貌,避免对档案内容造成二次损害。
制定计划:根据档案的数量、类型以及数字化工作的要求,制定详细的数字化工作计划。明确扫描的先后顺序,确定扫描分辨率(一般文本类档案建议300dpi以上,图像类档案可根据实际情况适当提高分辨率)、色彩模式(黑白、灰度或彩色)等参数。同时,制定统一的数据录入规范和模板,规定数据的格式、编码等,确保数据录入的一致性和准确性。此外,还要规划好工作进度,合理安排人员和时间,确保数字化工作按时完成。
二、扫描处理环节
设备调试:在扫描前,对扫描仪进行全面调试,检查设备的各项功能是否正常,如扫描速度、图像质量等。根据前期制定的参数设置,调整好扫描仪的分辨率、色彩模式等参数。同时,检查扫描软件的设置,确保扫描生成的图像格式(如TIFF、JPEG等)符合要求。
档案扫描:将整理好的纸质档案依次放置在扫描仪上进行扫描。在扫描过程中,要密切关注扫描设备的运行状态,确保扫描图像的质量。如果发现扫描图像出现模糊、偏斜、漏页等问题,要及时暂停扫描,调整档案放置位置或检查扫描仪的设置,重新进行扫描。对于装订成册的档案,要注意保持档案的完整性,避免在扫描过程中造成档案损坏。
文件命名:按照事先制定的命名规则,对扫描生成的电子图像文件进行命名。命名规则要简洁明了、易于识别,能够反映出档案的类别、年度、保管期限等关键信息。例如,可以采用“类别_年度_保管期限_序号”的命名方式,方便后续的查找和管理。
三、图像处理环节
图像检查:对扫描得到的电子图像进行初步检查,查看图像是否存在噪声、色彩偏差、黑边等问题。对于存在问题的图像,及时进行标记,以便后续处理。
图像优化:运用专业的图像处理软件,如Photoshop、丹青文件管理系统等,对存在问题的图像进行优化处理。去除图像噪声,使图像更加清晰;调整图像的色彩和对比度,使图像的色彩更加鲜艳、真实;裁剪图像的黑边,使图像更加规整。同时,对于偏斜的图像,要进行图像纠偏处理,确保图像的水平和垂直方向正确。
图像拼接:对于一些较大尺寸的档案,可能需要进行多次扫描才能完成。在这种情况下,需要将扫描得到的多个图像进行拼接,形成一个完整的图像。图像拼接要确保拼接处无缝衔接,图像内容完整、准确。
四、数据录入环节
数据录入:新手要严格按照数据录入规范和模板,将档案的标题、作者、形成时间、主题词、文号等关键信息准确无误地录入到数字化管理系统中。在录入过程中,要仔细核对档案原文,确保录入数据的准确性和完整性。对于一些特殊字符和格式,要按照规定进行处理,避免出现录入错误。
数据校验:在完成数据录入后,要对录入的数据进行实时校验。可以采用人工核对和系统自动校验相结合的方式,检查数据的准确性和一致性。对于发现的错误数据,要及时进行修改和纠正,确保数据的质量。
五、数据质检环节
质量检查:按照制定的质量标准,对扫描图像的清晰度、完整性、规范性,以及数据录入的准确性、一致性等进行全面检查。检查扫描图像是否存在模糊、漏页、图像变形等问题,检查数据录入是否存在错误、遗漏、格式不正确等问题。
问题整改:对于检查中发现的问题,要及时进行记录,并通知相关人员进行整改。整改完成后,要再次进行质量检查,确保问题得到彻底解决,数字化成果符合质量要求。
六、数据存储与备份环节
数据存储:将经过质检合格的数字化档案数据存储到安全可靠的存储设备中,如服务器、磁盘阵列等。存储设备要具备足够的存储容量和良好的性能,能够保证数据的快速读取和写入。同时,要建立合理的数据存储结构,方便数据的管理和查询。
数据备份:为了防止数据丢失,要定期对数字化档案数据进行备份。备份数据要存储在不同的物理位置,如异地的服务器、磁带库等,以确保在发生自然灾害、设备故障等意外情况时,数据能够得到有效保护。备份数据要定期进行恢复测试,确保备份数据的可用性。
纸质档案数字化的各个基本环节紧密相连,环环相扣。只有在每个环节都严格按照规范和要求进行操作,才能确保数字化成果的质量和可用性,为档案的信息化管理和利用奠定坚实的基础。
本规定依据国家行业标准DA/T 31—2005《纸质档案数字化技术规范》而制定。
1纸质档案数字化基本要求
1.1加工范围
档案数字化加工的范围为永久或长期保存的、社会利用价值高的档案。
1.2基本环节
纸质档案数字化的基本环节为:档案整理、档案扫描、图像处理、图像存储、目录建库、数据挂接、数据验收、数据备份、数据管理等。
1.3过程管理
1.31建立档案数字化加工安全保密管理制度,确保档案原件和数字化档案信息的安全。
1.32建立档案数字化的台帐制度,在档案数字化各环节均进行详细登记,以备查考。
2档案整理
在档案进行数字化扫描前,应对档案进行整理,确保档案数字化质量。
2.1目录审核
目录审核是根据档案的实际情况,按照《档案著录规则》(DA/T 18)等要求,规范档案目录著录内容,核实目录的准确性。如有不规范或错误的文件题名、责任者、档号、起止页号和页数等,应对目录进行修改,为建立目录数据库做准备;已建立目录数据库的,则依据档案实体对目录数据进行检查核实和修改。
2.2鉴定扫描件和非扫描件
制定扫描件和非扫描件的范围,按要求把同一案卷中的扫描件和非扫描件区分开。原则上重份文件、有正文的底稿或档案经过鉴定后不列入扫描范围的属于非扫描件。
2.3拆件和装订
以不损伤档案原件为前提,尽量拆除档案装订物,以免影响扫描质量。如拆除装订物可能会对档案原件造成损伤的,应保持原装订。
扫描工作完成后,应进行档案清点,做到准确、无遗漏;拆除过装订物的档案应按原档案卷内文件的排列顺序进行排列,恢复装订,或根据工作需要改变原装订方法。
2.4页面修整
对已确定扫描的档案进行页面情况检查,页面破损严重,无法直接进行扫描的,应先进行页面修复;页面折皱不平,影响扫描质量的,应先压平或熨平后再进行扫描。
2.5档案整理登记
制作档案整理工作登记表,对档案整理的过程一一进行登记,包括目录审核修改情况,扫描件和非扫描件鉴定情况,页面修整情况等,作为数字化其他工作环节的依据(登记表格参见附表A)。
3档案扫描
3.1扫描方式
3.1.1根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面平板直接扫描,或采用缩微拍摄后胶片转数字化。没相应设备的一般采用小幅面扫描后进行图像拼接的方式处理。
3.1.2纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式。
3.1.3扫描方式的选择以不损伤档案原件为原则。
3.2扫描色彩模式
3.2.1扫描色彩模式有黑白二值、灰度、彩色等。
3.2.2用黑白二值模式扫描,形成的图像文件所占用的空间较小,适用于页面为黑白两色,字迹清晰,不带插图的档案。
3.2.3灰度模式适用于页面为黑白两色,但字迹清晰度差,或带有插图的档案,以及页面为多色文字的档案。
3.2.4彩色模式扫描形成的图像文件所占用的空间较大,但能直接反映档案的原貌,用途广泛,并且可根据需要把彩色图像转换成黑白二值或灰度。页面有红头、印章或有照片、彩色插图的档案应采用彩色模式。
3.3扫描分辨率
3.3.1扫描分辨率参数大小的选择,应以扫描后的图像清晰、完整,不影响图像的利用效果为准。
3.3.2不论采用何种色彩模式,一般情况下,扫描分辨率大于或等于100dpi即可。如果档案文字偏小、密集、清晰度差等,可适当提高分辨率。
3.3.3需要进行OCR汉字识别的档案,扫描分辨率应大于或等于200dpi。
3.4扫描登记
登记扫描档案的页数、色彩模式、分辨率等,如需要进行OCR识别的档案应注明。在登记的同时应注意核对每份文件的实际扫描页数与档案整理登记单填写扫描件的页数是否一致,发现漏扫或错扫时应及时补扫,并在登记表上注明原因和处理方法(登记表格参见附表A)。
4.图像处理
4.1图像质量检查
4.1.1图像质量应达到以下要求:图像完整、清晰,无影响图片美观的黑边和污点,图像不偏斜或倒置,符合正常阅读习惯。
4.1.2检查图像的偏斜度、清晰度以及完整性,发现不符合图像质量要求的应进行图像处理;因操作不当造成图像不完整或无法清晰识别时,应重新进行扫描。
4.1.3扫描图像的排列顺序与档案原件一致,发现不一致时应进行调整;发现文件漏扫时,应及时补扫并正确插入图像。
4.2纠偏
对出现偏斜的图像应进行纠偏处理,以达到视觉上不感觉偏斜为准。对方向不正确的图像进行旋转还原,以符合阅读习惯。
4.3去污
对图像页面中出现的影响图像质量的杂质,如黑点、黑线、黑框、黑边等应进行去污处理,在不影响文字可懂度的前提下展现档案原貌。
4.4图像拼接
对大幅面档案采用分区小幅面扫描后,形成的多幅图像,应进行拼接处理,合成为一个完整的图像,拼接后应与档案原件核实,确保拼接无误,保证数字化图像的整体性。
4.5裁边
为缩小图像文件容量,节省存储空间,扫描的图像应去除图像无内容、多余的边。
5图像存储
5.1图像存储格式
5.1.1图像存储格式一般应选择TIFF(G4)或JPEG格式。这两种图像格式存储文件小,通用性强,不使用专门图像编辑和浏览软件也能在WINDOWS系统平台上进行浏览和管理。
5.1.2采用黑白二值模式扫描的图像文件,应采用TIFF(G4)格式存储;采用灰度或彩色模式扫描的图像文件,应采用JPFG格式存储。
5.1.3提供网络查询的图像,可把原TIFF或JPEG图像文件转换为CEB、PDF、海蓝或其他格式。
5.2图像文件的命名
5.2.1每一份文件应以该文件相对应的唯一档号来为扫描后的图像文件命名。为了便于管理和数据挂接,图像文件命名的档号格式应与其目录数据库中的档号格式相一致。
5.2.1.1传统以卷为保管单位的文书档案,档号格式为:全宗号—目录号—案卷号—文件所在页号(或文件顺序号)或全宗号—年度—保管期限代码—类别(机构)代码—归档号—文件所在页号(或文件顺序号)。
5.2.1.1.1保管期限代码为永久为1、长期为2、短期为3、30年为4、10年为5。
5.2.1.1.2类别(机构)代码由各单位根据实际情况进行编制,固定使用,没进行分类的则以“0”替之。
5.2.1.2立卷改革后以件为保管单位的档案,根据档案类型的不同其档号格式有所区别。
5.2.1.2.1文书档案档号格式为:全宗号—年度—保管期限代码—机构(问题)代码—件号。
5.2.1.2.2会计档案图像档号格式为:全宗号—年度—类别—件号。
5.2.1.2.3基建档案档号格式为:全宗号—年度—项目代号(代码)—保管期限代码—类别号代码—件号。
5.2.1.2.3.1类别号代码:基建文字为1、基建图纸为2。
5.2.1.2.3.2项目代号(代码)由各单位自行编制,固定使用。
5.2.1.3企事业档案的图像文件以档号及件号来命名,具体格式为:全宗号—类号—案卷号—件号(或文件所在页号)。企事业档案类号的编制应遵循国家档案局制定的《工业企业档案分类试行规则》,年度与类目号以及不同级类目号之间用“.”分隔;
5.2.1.4如有行业规定的档号命名格式,则应按行业标准来命名其图像文件。
5.2.2档号中的各号(代码)固定位数,不足前补“0”。具体如下:
全宗号3位、目录号3位、案卷号4位、文件所在页号4位、文件顺序号(件号)4位、年度4位、类别(机构)代码2位、归档号4位、一级类目代号1位、二级以上类目代号2位。
档号中空缺或没有进行编制的号(代码),如全宗号、类别(机构)代码等,则以“0”替之。
5.2.3多页文件应建立相应的文件夹,并按档号加上页码顺序对图像文件命名。
5.2.3.1以卷为保管单位的档案,每卷建立一个文件夹并以其档号来命名。
5.2.3.2以件为保管单位的档案,每件建立一个文件夹并以其档号来命名。
6目录建库
6.1数据格式
选择通用的数据格式(DBF、TXT、MDB),能直接或间接地通过XML文档进行数据交换。
6.2档案著录
按照《档案著录规则》(DA/T 18)、《广西文件级档案目录数据采集方案》等要求进行著录,建立规范档案目录数据库。
6.3目录数据质量检查
质量检查可采用人工抽查或软件自动校对等方式,核对著录项目是否完整、著录内容是否规范、准确。为了保证目录数据与图像文件能够正确挂接,检查时要重点检查档号是否准确、录入的数据条目数与档案的实际数量是否一致,发现数据错录、漏录应及时进行修改、补录。
7数据挂接
7.1汇总挂接
档案数字化后形成的图像数据库,经过质量检查确认合格后,通过相应的软件与档案文件目录数据库进行批量挂接。
7.2检查挂接
数据挂接后,以档案文件级目录数据库为依据,对挂接的图像文件进行检查,核对图像文件的命名格式是否符合要求,发现错误及时作出修正。
7.3挂接登记
对汇总挂接及检查挂接的情况进行登记,对挂接错误的注明错误原因、处理办法及修正结果(登记表格参见附表B)。
8数据验收
8.1数据抽查
8.1.1以抽查的方式检查已完成数字化转换的所有数据,包括目录数据库、图像文件及数据挂接的总体质量。
8.1.2同一批验收的档案,抽查的比率不得低于15%。
8.2验收指标
8.2.1目录数据库与图像文件挂接错误,图像文件不完整、不清晰、有错误等,为“不合格”。
8.2.2同一批验收的档案,质量抽查合格率达到95%以上(含95%)时,可以验收“通过”。
合格率=抽查合格的文件数/抽查文件总数×100%。
8.3验收审核
验收“通过”的结论,必须经过分管领导审核、签字后才有效。
8.4验收登记
对验收过程进行详细登记,以备查考(登记表格参见附表B)。
9数据备份
9.1备份要求
9.1.1在档案数字化的过程中,要求把每天形成的图像文件数据备份到计算机的硬盘上。
每星期形成的图像文件数据,除备份在计算机硬盘外,并采用一次性写入光盘刻录一套数据保存。
9.1.2数据挂接并验收合格后,应及时进行备份。采用多套备份方式,备份介质为一次性写入光盘,至少备份3套,并注意异地保存。
9.2数据检验
备份的数据应进行检验,检查备份数据是否能被计算机正确读取、数据信息是否完整、文件数量是否准确等。
9.3备份标签
数据备份后应在相应的备份介质上做好标签,并简略说明备份内容和备份时间,以便查找和管理。
9.4备份登记
对每次备份的内容、数据大小、备份时间、备份套数及数据存放位置等进行记录(登记表格参见附表C)。
10数据管理
10.1管理要求
加强对纸质档案数字化成果的管理,制定相应的管理制度,对备份数据定期检查,确保数据的安全、完整和长期可用。
10.2保管环境
10.2.1数据光盘不得擦洗、划痕、触摸其裸露处以及弯曲、挤压、摔打盘片。
10.2.2数据光盘保管环境温度为14℃—24℃,相对湿度为45%—60%。
10.2.2防止数据光盘沾染灰尘和污垢,避免阳光直接照射,远离热源、酸碱等有害气体和强磁场。
10.3检测与维护
10.3.1备份数据光盘每年进行一次有效性、安全性检查,并每4至5年重新刻录、备份数据。
10.3.2如原数据运行的软、硬件平台发生改变,应及时对数据进行转换,并做好备份。
10.3.3做好数据检测与维护过程的登记,数据转换时应说明数据转换的原因及采取的转换措施、转换数据数量等。
纸质档案数字化的基本环节包括以下这些流程和步骤:档案准备:将待处理的纸质档案按照一定规则进行分类和整理,确保档案的完整性和有序性。扫描:使用扫描设备将纸质档案转换为数字图像。
可以使用单页扫描仪或者自动进纸扫描仪,根据需求选择合适的设备。在扫描过程中,确保扫描质量良好,文件清晰可读,并保存为常见的图像格式(如JPEG、TIFF等)。图像处理:对扫描得到的数字图像进行处理和优化。这包括图像裁剪、调整亮度和对比度、去除噪声以及增强图像细节等操作。目的是提高图像的可读性和质量。
OCR识别:对扫描后的图像进行光学字符识别(OCR)。OCR技术能够将图像中的文字转换为可编辑和可搜索的文本。通过OCR识别,可以方便地进行全文检索、关键字提取和信息提取等操作。
数据标引与分类:对识别后的文本进行标注、分类和整理,以便日后的检索和管理。可以使用关键词标签、元数据信息和分类系统等方式进行标引。存储与管理:将数字化的档案保存在服务器或云存储设备中,建立索引和数据库管理系统,便于档案的长期保留和高效检索。
安全性与备份:确保数字化档案的安全性,包括数据备份、灾难恢复和可持续性管理。纸质档案数字化是将传统的纸质档案转化为数字形式的处理过程,它可以提高档案的处理效率,保证数据的安全性和完整性,便于管理和查询,节约资源和成本,提高效率和精度。纸质档案数字化是是企业和组织数字化转型的重要手段之一。