电子档案检索系统

2024-07-13

电子档案检索系统（精选十篇）

电子档案检索系统篇1

检索系统的作用就是搜索、抓取并分析互联网中的资源和信息, 存储它们对应的副本信息, 并对所存信息进行一系列处理, 为用户提供实用的检索服务。一个通用的检索系统一般由7大模块组成, 它们分别是系统维护接口、文本解析器、搜索器、索引器、检索器、查询分析器和用户界面。

目前, 很多站点都使用Google、Baidu等大型搜索引擎作为自己的站内检索系统, 采用这种大型搜索引擎进行站内检索会存在以下几种问题:

(1) 更新索引文件的时间较长。即对一个网站来说搜索引擎的更新频率较低, 新内容需要在一段时间后, 才能进入Google和Baidu的索引文件。

(2) 索引的文件格式比较固定。大多数引擎仅能完成对纯文本的搜索, 很难搜索PDF、Word、XML等类型文件。

(3) 排序算法针对性不强。不能很好地将检索到的数据按照相关性、单个域或多个域等信息进行排序。

Lucene是一种基于Java的、高性能的、可扩展的信息检索工具, 它提供了良好的索引和搜索功能, 它由基础结构封装、索引核心和对外接口三大部分组成。Lucene将所有源码分为为搜索器、分析器、索引器、存储器、文档、工具和查询解析器等7个模块, 其组织结构见图1。

基于Lucene技术的站内搜索引擎有以下几大优势:①索引文件格式多样, 可独立于具体的平台;②索引速度高。能实现分块索引, 通过给新内容建立小文件索引, 提高索引速度;③Lucene项目开放源代码, 其排序方法透明, 其搜索结果会公正、客观;④Lucene仅仅提供索引和搜索方面的功能, 兼容性好, 能嵌入到不同的项目应用中, 实现针对具体应用的索引/搜索功能。

由于Lucene技术在站内搜索引擎方面的优势, 本文采用Lucene技术设计并实现了一套站内电子档案检索系统。该系统设计了异构文档解析、档案数据处理、文档索引、文档搜索和用户检索5大模块, 实现了对站内文档的检索。

1 电子档案检索系统的设计与实现

本文结合Lucene技术建立一个小型的站内搜索引擎, 实现对数据库中的档案信息进行全文检索, 其系统总体的设计见图2。

该电子档案检索系统包括异构文档解析、数据处理、文档索引管理、文档搜索实现和用户检索服务等5个模块, 其中的文档索引管理包括全新索引和增量索引两部分。下面分别详细介绍模块的具体实现方法, 以下模块的设计中使用的函数均为Lucene提供的开源程序, 可直接调用。

1.1 异构文档解析模块的设计

Lucene是针对纯文本文档进行搜索的框架, 因此, 首先需要对不同格式的文档进行解析。异构文档的解析过程为:

(1) 解析目标文件的类型, 实现与DocumentHandler的接口;

(2) 将解析器类添加到handler.properties文件中, 并将该类映射到其对应文件的扩展名中。

(3) 使用FileIndexer使遍历所有的文件系统, 索引文件。其中, FileIndexer是Lucene提供的一个开源应用程序, 该程序可遍历文件系统的目录, 完成对Excel、Word、HTML和PDF格式等异构文件的解析和索引。

1.2 数据处理模块的设计

数据处理模块主要对异构解析模块中抽取出来的文本进行初步处理, 然后将其存入数据库。在数据处理模块中, 提取的文本先被送到持久层, 然后实用程序SaveOrUpdateFromHTML将位于持久层中的文本存入数据库。在这个过程中, 所有文本都继承了Hibernate中提供的JdbcDaoSupport类, 因此, 我们可轻易地获得和数据库的链接, 并可通过更新数据库来完成插入任务。另外, 为了可以在查找的过程中不区分大小写, 提高查找效率, 可在数据处理中调用程序file.getName () .toLowerCase () 将所有文件的名称变为小写的方式。

1.3 文档索引模块

文档索引分为全新索引和增量索引两部分。当第一次对数据库中的所有档案创建索引时, 需使用全新索引;若创建索引后, 对添加的新的档案信息进行创建索引时, 则需使用增量索引来创建索引, 这样可提高创建索引效率, 不需要做重复工作。下面将详细介绍这两种索引的具体创建过程。

(1) 全新索引创建过程。

创建全新索引的步骤为:①通过System.getProperty算法得到目前用户的路径信息;②基于Spring来建立beanFactory, 通过FileSystemXmlApplicationContext类中的构造算法得到spring的配置文件applicationContext.xml中的内容;③通过beanFactory中的getBean方法得到由Spring注入的逻辑层对应的引用, 并将beanFactory类型转成逻辑层中引用的类型, 最后将结果传给逻辑层引用的实例;④通过引用的实例调用CreateIndex方法来创建索引。

(2) 创建增量索引。

一般是通过添加模式在索引生成器中创建新的索引。这里所说的增量索引能在现有的索引中添加新文档, 其具体方法就是在使用IndexWriter添加新索引的同时, 通过false参数来保存索引目录内容, 其实现函数为:

indexWriter = newindexWriter (Constants.INDEX_PATH, MMAnalyzer, false) ;

1.4 文档搜索模块

在所设计的文档搜索模块中, 当用户输入搜索关键词后, 该模块先分析关键词, 并找到有效的关键词, 然后在索引库中进行查找。若没有对应的结果, 则索引表为空, 若索引表不为空, 则根据查找的索引项信息提取其对应文档, 最后将对检索结果进行排序并将结果送给用户检索模块。

1.5 用户检索模块

在所设计的用户检索模块中, 每当用户提交请求后, 用户检索模块对用户的权限进行判断, 如果用户名和密码通过验证, 则该用户可以进行检索。根据权限用户发送的请求来查询索引数据库, 并返回给用户所需信息, 若没有用户所需信息, 则让用户重新输入搜索内容。若用户想得到具体的信息, 则可根据获得的信息访问数据库, 得到更加详细的信息。按照以上过程, 用户在每次查询时不需每次都访问数据库, 提高了检索效率。

2 系统测试及性能分析

2.1 系统测试

该部分从文档解析器和搜索关键词两个方面, 对系统进行测试。

采用一批档案资料对所设计的系统进行测试, 这些资料包括HTML、Word和Excel文档, 总的大小在50M左右。

(1) 解析器的测试。

解析器的测试步骤如下所示:①在本地目录indexTest目录下手动的放入HTML、Word和Excel格式的文档各300个, 文件的总大小为246.54M;②获取indexTest文件夹中的文件;③将文件传递给Extensionhandler的对象, 按照其扩展名来解析文件并生成Document对象, 即: Document doc =extensionFileHandler.getDocument (file) ;④采用函数indexWriter.addDocument (doc) 添加Documem对象到索引。

通过以上步骤得到的索引见表1。

表1为一次实验的结果, 通过多次添加新的数据, 采用该解析器得到的测试结果基本一致, 说明该解析器性能良好, 工作稳定。

(2) 关键词检索的测试。

对关键词检索而言, 当输入关键字后, 所设计的检索系统马上会创建一个指向索引库所在位置的indexSearcher实例, 然后系统通过调用getQuery方法获得由页面提供的查询条件, 最后调用search () 方法在索引库中进行查找, 并将结果放在Hits集合中。

打开所设计的电子档案检索系统也变, 输入检索关键词“菲尼克斯”, 其附加条件为“文件”且时间为“2006”年, 系统的检索结果见图3。

其中该搜索过程共耗时591ms, 共找到104条记录, 该结果和文件中的实际记录一致, 说明该系统对关键词的检索准确率较高。

2.2 系统性能测试分析

对一个检索系统系统而言, 对其性能的评价有很多指标, 其中最常见的是查全率、查准率、响应时间这3个指标。以下通过对统计结果来说明该系统的性能。

查全率的测试和分析。这里提供的测试数据和前面的相同, 包含900个文档, 3种格式。当关键词为“北京分公司”时, 检索出255个结果。经过对数据一一搜索, 含有“北京分公司”的所有文档都被检索到。使用同样的方法对不同文档和关键词的检索结果进行分析, 结果显示该系统的查全率在98%以上。

查准率的测试和分析。通过人工分析检索到的255个文档中, 可能符合用户期望的文档共计96个, 查准率为37.6%。对多次测试结果的分析显示, 该系统的查准率在34%～46%之间。

响应时间的测试和分析。在CPU为Intel (R) Pentium (R) processor 1.73GHz、内存1G的电脑上进行多次测试。在对900个文档建立的索引上, 以不同的关键字对该系统的响应时间进行测试, 结果显示, 其平均时间约为96.5ms。

3 结束语

本文采用Lucene技术设计并实现了一个站内电子档案检索系统, 该系统由异构文档解析、档案数据处理、文档索引、文档搜索和用户检索5大模块组成。系统测试和性能分析表明该系统能实现对站内档案的快速检索。由于硬件条件和数据量的限制, 该系统仍需要进行优化和在实际站点进行测试。

摘要：为满足快速站内检索的需求, 基于Lucene设计和实现了一个面向大量数据的网站内电子档案检索系统。该系统设计了异构文档解析、档案数据处理、文档索引、文档搜索和用户检索五大模块, 实现了对站内电子档案的快速、准确检索。测试结果表明, 该系统具有较高的实时性、查全率和查准率, 可用于站内档案的快速检索。

关键词：电子档案检索系统,搜索引擎,Lucene

参考文献

[1]孟涛, 闫宏飞, 李晓明.搜索引擎信息覆盖率模型研究[J].电子学报, 2003 (8) .

[2]姚金涛.基于Lucene的Web搜索引擎实现[D].西安:西安电子科技大学, 2008.

[3]王学松.Lucene+Nutch搜索引擎开发[M].北京:人民邮电出版社, 2008.

[4]李刚, 宋伟, 邱哲, 等.Ajax+Lucene构建搜索引擎[M].北京:人民邮电出版社, 2006.

电子档案检索系统篇2

马帅章、桑毓域（天津师范大学）

方昀（天津市档案局）

摘要：电子政务环境下，传统纸质文件的归档移交模式与体制已经不再适应新形势下电子公文的管理活动。本文尝试结合国内外电子文件管理标准和管理模式的相关经验，解析电子公文报送系统的基本概念与结构，对报送系统面临的复杂因素和实现的多元性目标进行分析，并从电子政府公文向档案部门移交报送流程出发，构建电子公文报送系统的功能需求分析模型及技术功能要求，旨在为电子公文报送系统研究和系统开发提供理论借鉴，也为电子文件中心和数字档案馆建设提供一些参考。

关键词：电子公文报送系统归档

Research on the functions for the system of Electronic document submitting

Ma Shuaizhang，Sang Yuyu（Management school of Tianjin Normal University，Tianjin 300387）Fang Yun（Archives Bureau of Tianjin，Tianjin 300191）

Abstract：Under the circumstance of E-government, the transferring module and management system on the traditional paper records cannot adapt to the management activities of electronic document in new time.With the related international standards and practical experiences within and out of our country, this paper not only introduces the basic concept and structure on system of electronic document submitting，but analyzes the complex conditions the system faces and the multi purposes which the system can bring.Meantime, in this paper the author tries to create the basic module of the basic functional requirements and technological function requirements which based on the considering of the electronic document processing from the electronic government to related archival institutions.The whole paper is to give theory references for the research of electronic document submitting and system development.Another purpose is to present some references for the construction of the Records Center and the Digital Archives.Keywords：Electronic document ；System of submitting；Filing

电子政务环境下，电子公文作为政务流程办公办事的载体，其流转、处理以及最后的归档保存关系到电子政务活动的顺利开展和有效运行。与纸质档案相比，由于电子文件自身许多新特点导致电子文件管理与传统纸质档案管理之间管理条件的限制与矛盾比较突出。从管理实践的角度可以看出传统文件归档移交机制已经难以适应电子公文的办理环境和现实条件。因而电子公文报送系统的设计和新的功能定位走进我们的视线。

一、电子公文报送系统的概念及结构分析

电子公文报送系统是对电子公文归档以及电子公文移交环节相结合的统称。随着各项政务性活动的完结，电子公文完成了公文流转的现实效用。归档环节的设置，为电子公文归档整理与报送移交之间搭建了桥梁。从电子公文归档整理环节至电子公文向档案馆的移交报送，该过程完成了电子公文从形成机关到保管单位的过渡。

从理论上讲，电子公文报送系统主要由电子公文归档环节与移交报送环节组成。根据当

前文档一体化的管理实际，我们在分析电子公文报送系统功能时要充分考虑电子公文流转这一前端控制过程，报送收尾阶段需考虑电子文件中心（数字档案馆）的接收需求。“归档是档案部门正式接管电子文件管理工作的起点，但是档案部门对于电子文件管理工作的介入要

①向前延伸，从文件生命周期的‘前端’就开始控制文件归档活动”。整体的系统设计理念会有助于系统最后的顺利运行。法国档案学者C．诺加雷指出：“档案工作者要考虑他们在文

②件生命周期中进行干预的时机，甚至重新思考这种生命周期本身。”前端控制观点得到很多电子文件研究者的认同。

二、电子公文报送系统面临的复杂因素和实现多元性目标的分析

（一）电子公文报送系统分析面临的复杂因素分析

作为整个报送系统的核心应用对象，公文一般具有法定性、规范性等特征。同时电子公文还有一些技术性特点：如电子公文信息的非人工识读性、对系统的依赖性、电子信息与特定载体之间的可分离性、信息存储的高内存高密度性等。

此外，我们设计架构电子公文报送系统的功能体系时还需关注以下几个问题： ①保持电子公文信息的原始记录和原始凭证问题、电子公文格式规范问题等； ②组织和管理问题；

③电子公文的法定归属和权责问题；

④系统设计原则：全程性、前端控制性等。

（二）电子公文报送系统的多元性系统目标的分析

从电子公文的移交和报送系统的传输单元来看，文件、文件夹以及数据库三级保管层需要各自采取专门保管技术措施。

从电子公文的管理模式看，在设计报送系统功能时需要考虑电子公文的形成背景和部门人员对公文的操作和控制的行为，以保障电子公文管理不影响电子公文的原始性。

从电子公文的载体看，系统设计功能目标要从技术上保证公文载体的稳定性，进而确保电子公文内容的稳定。

从电子公文的内容上分析，报送系统应该对电子公文内容的秘密等级、访问权限、可读取性等全程监测。“电子文件的可读性是指文件经过存储、传输、压缩、加密、媒体转换、③迁移等处理后能够以人可以识读、可以理解的方式输出，并保持其内容的真实性”。技术上需要做周密的计划和实施才能实现该目标。

三、电子公文报送系统的功能需求分析

（一）总体功能需求分析

报送系统的总体功能分析需要站在整个系统的角度，并且需要贯穿整个系统流程进行宏观的功能定位和把握。

1、应报送电子公文范围的划定参照我国《电子文件归档与管理规范》、《机关文件材料归档范围和文书档案保管期限规定》等标准，根据地区实际确定捕获范围和制定捕获标准。在报送系统的接口需要设计电子公文的捕获范围数据对照和电子设备验证操作端口，按照相应的类别进行归档、移交报送。

2、电子公文报送的格式要求

系统数据管理标准应与国际标准接轨，并且要与我国电子公文形成系统兼容，这样才能确保数据的有效衔接。GB/T15489-1—2009中元数据的定义为“描述文件的背景、结构及其

管理过程的数据。”在元数据的选择上控制电子公文的报送格式规范和管理标准能够有效保持整个系统的格式统一。

3、电子公文报送的管理和权限

按照系统的功能要求和系统运行具体阶段的划分，报送系统参与人员需做出实际的系统操作控制并注意保密意识培养和全程跟踪的谨慎态度。同时，关于电子公文的实体归属和权限应该依照相关规定执行。

（二）分阶段详细功能需求分析

1、报送前

当前我国政府机构办公系统产生的电子公文有很多问题，例如电子公文的格式标准不规范统一、电子公文的质量参差不齐等。在系统的开发阶段需要将这些问题嵌入系统功能设计中。以下是基本功能构想：

 报送前审查：首先需要形成一个数据统计表，将立档单位准备移交报送的电子公文做一个初步的统计和目录备份。对归档的电子公文做初步的审查，包括是否齐全、是否合乎归档的格式要求等质量初审。系统设计可以利用系统对接的机会将此功能实现，起过滤作用；  格式规范转化：国家正在制定长期保存的电子文件格式，电子公文在归档报送前应将各种电子公文格式统一转换成国家规定的电子文件格式。需要注意的是格式转换前后公文内容必须保持一致。转换前原文备份可以暂时留存于立档单位，备以查考；  统一封装技术：统一的封装技术需要将同一份文件的不同组成部分进行绑定，以防数据传输过程中出现错乱；电子公文的说明文件、操作日志和公文格式修改记录等需要同时封装；封装后需要数字签名，立档单位与接收部门利用CA或通过加密的电子公务邮件进行报送手续的办理；  统计并留下保留系统数据：封装后需要将封装的电子公文进行二次统计，以系统文件的形式一式三份，一份立档单位留存，一份留在系统内部便于系统数据交换时的对照，另一份送至接收单位，提供质量检查的目录。

2、报送时

 报送时机的确定：立档单位做好报送前准备工作后，封装与数据的上传时机便可进行选择；

 系统对接：系统对接注意接口问题以及数据上传与打包功能；  集成化的传输技术：集成化的条件下批量数据的传输，足够的网络技术和集成化设备支持是基础；  网络应用：电子政务平台下，政务网与电子公文报送接收的档案部门之间的网络架构需要注意网络的传输速度、网络的安全保障以及网络传输数据的保密性等；  安全保障技术：封装、保密、防火墙的设置；从电子公文的物理层安全控制、系统层安全控制、应用层安全控制以及数据层安全控制进行安全防控；  传输中的封装管理：传输中需要进行相关操作需要及时报请系统管理人员，取得批准后方可进行慎重的修改与更换活动，且需要记录操作日志。

3、报送后

 电子公文封装拆包与复查：电子公文传输到档案部门后需要首先进行封装包拆除，进行质量的检查，参照相关的标准和报送前的电子公文统计目录进行；非规范性电子公文（包括不需要报送的以及不合乎规范的）可以进行适当回流，且数据往返传输时必须采取封装技术；

 电子公文的集中管理和存储：通过“安检”的电子公文可以直接导入电子公文数据

库中，等待下一步的操作；非在线传输的电子公文应该与在线传输的电子公文进行系统整合，形成新的电子公文目录，并及时反馈给立档单位进行备案；  开放条件的设定：在报送末端设立基本保管期限审核接口，传输过程一结束就应将符合开放条件的电子公文进行标识，与政务公开网进行直接的衔接；同时将开放电子公文的文件信息和备份传入集中管理的数据库；

 编研工作基础架构：在报送系统设计时将档案的编研要求和编研的需求考虑进去，对电子公文采取适当的转换和整理为编研工作做基础性准备。

在功能设计全程需要全面保障系统一些最基本的技术要求的实现。首先安全保密性功能是做好电子公文保密的关键，电子公文真实完整性和可读性要求也是实现系统功能的基本保证；其次还要从技术上满足整个系统的集成化、兼容性技术支持和可扩展性要求的条件。

电子公文报送系统的功能模型需要来源于实践管理的经验。如何安全、高效、易行的实现电子公文的报送过程是整个系统功能设计的焦点。实践中我们还需要不断摸索电子公文报送系统功能，在实践中对系统进行功能的改造和技术的创新。

注释：

①王强，李振生.以归档为契机的文件、档案一体化管理战略研究[J].山西档案 2004（5）.②蔡利剑.电子文件的前端控制[J].中国科技博览2010（5）.③冯惠玲主编.《电子文件管理教程》，2001年中国人民大学出版社，2001年8月第一版.参考文献与标准规范：

建立导航式档案网上检索系统的思考篇3

当你因爱好、研究或其他应用需要查找某方面或某一类的档案信息时，但你却不知道这些档案的馆藏情况和馆藏地方，你可能就希望如果有一个像百度、谷歌那样的网站就好了。只要输入关键词，便可查询相关的信息。但是目前，虽然各地档案工作者已经做出了很大的努力，如很多档案馆建立了网上查询系统，公布了馆藏目录，发布了档案编研成果等，但是这些都是“单兵作战”，档案馆“各自为政”，功能比较少，水平比较低，还无法满足用户的上述要求。因此笔者建议建立一个导航式档案网上检索系统。

导航式档案网上检索系统就是一个基于广域网能够整合各个档案馆的资源，提供档案信息检索的服务系统。这一系统可以为各类档案利用者提供跨地域、跨行业、跨部门的档案信息，提供所需档案的数量、所在的地方、利用的方法、条件和联系方法以及其他档案等相关信息，发挥档案利用的索引导航作用，从而向多层次、广地域的公众档案利用者提供指引，让档案信息更加贴近普通公民，贴近需求者，实现档案信息资源的社会化。

导航式档案网上检索系统应该具备这样的功能：一要有一个关于档案信息的统一的网络检索界面，能让利用者方便的识别和利用这个系统；二要有一个强大的跨地区、跨部门、跨行业的档案信息资源数据库，保证能给公众提供大量的查询信息；三要能按一定标准提供检索结果，为利用者进一步利用提供指引。比方说某一利用者因研究徐悲鸿的需要，需查找有关徐悲鸿的档案资料，但又不知道该类档案资料在什么地方、在哪个档案馆有，如何去查询等。这时便可以利用这样的检索系统，通过输入“徐悲鸿”这一检索词，通过一个检索页面提供数据库中所有关于徐悲鸿的档案信息(包括收藏者链接和联系、查阅方法等)，为进一步利用起到导航作用。

二、建立导航式档案网上检索系统是提升档案利用水平的必然

1、档案利用工作重点转变的需要。由国家档案局、中央档案馆于1997年2月颁发的《关于在全国档案系统加强社会主义精神文明的意见》要求各级档案馆充分发挥五个功能，即档案保管基地功能、档案利用中心功能、爱国主义教育基地功能、学术研究场所功能、文明服务窗口功能。然而这些功能的发挥都要通过档案的有效利用来实现，而先进的检索手段又是有效利用的必备条件。随着档案馆功能的拓展，档案利用群体也不再是以政府机关干部和学者为主体，作家、研究人员、创作编导、编史修志、政策制定甚至休闲欣赏等任何一个普通公众都有利用档案的可能性。这种利用者的“随意性”要求档案馆提供一种“通俗”、易操作的“傻瓜”式检索系统。

2、档案信息网络管理发展的需要。目前各档案部门为实现档案资源共享，正加大力度进行档案资源整合，加强数字化建设。全国大多数档案馆都建立了档案网站，提供了数量巨大的信息资源。要想利用这些资源，按目前状况需要到各个档案网站上去检索查询，这对于普通公众来说，存在两个问题。一是专业性的检索系统和各档案网站检索方式的多样性影响着档案信息的查准率和查询速度。二是档案信息“各自为政”存储在各个档案网站上，不能互相链接。作为完善的检索系统应该使公众尽可能直观、方便、准确的检索。因此信息网络管理工作不仅需要数字化的“虚拟档案馆”的内容，还需要以最简单的检索方式打开这所大门的钥匙，满足多样的检索利用需求。

3、档案利用范围扩大的需要。早在2002年9月召开的第十四届国际档案大会第三次全体报告会的议题是“档案馆在休闲利用社会中的作用”。英国著名档案学家迈克尔·库克指出整个社会应该把档案馆看作是一个文化机构，即使是贴上“文化娱乐”甚至“消遣”的标签也是无可厚非的。也就是说除公务需要外，档案开始和普通公民的生活兴趣、爱好、鉴赏等休闲活动联系到一起，人们有意无意地利用档案的随意性要求有一种宽范围的查询检索系统，能满足公众用户准确、快捷、方便地检索，找到所需的档案信息。

4、国内外档案网站已经出现了这样的雏形。笔者打开美国国家档案馆网页，发现不仅信息资源丰富，而且还拥有全国各种档案馆馆藏信息的联网数据库，实现全国档案信息资源集成化查询检索和利用，并通过目录式方法将有关档案部门链接起来。国内已经有部分网站或多或少地实现了或正在准备实现这样的一些功能。国内有一法律界人士建立的网站，与全国283个地市的律师合作，建立一个专业档案查询网，可以查询企业工商证照、房产、车辆设备资产及人员等方面的信息。浙江档案网在检索系统中提供国内外可检索的相关资源的链接，四川档案网则准备提供全省部分市、州的馆藏目录查询。这些网站提供这方面的服务已经体现了网上检索的方向，但基本还是区域性的、不完整的和初始的，实现真正的导航指引功能还有很长的路要走。

三、导航式档案网上检索系统建立的方法与要求

建立导航式档案网上检索系统需要对各档案馆的档案信息进行全面搜集、合理组织和有效利用。搜集各地档案馆的档案信息，整合成一个统一的检索资源数据库是一个关键环节和艰巨任务。那么，采取什么方法获取分散而又数量巨大的档案信息?这里可以借鉴和引进搜索引擎技术。

目前，搜索引擎基本分为两类：全文搜索和分类目录。全文搜索是利用“网络蜘蛛”软件，通过网络上的各种链接自动获取大量网页信息内容，并按规则分析整理形成数据库。分类目录是通过人工的方式收集整理资料，人工编辑审核后输入数据库，也叫目录搜索引擎。全文搜索引擎是一个自动过程，提供的查询结果量大、关联度低，而且通过网上自动抓取，前提是必须有足够量的网页内容。分类目录依靠人工收集整理，能提供更为准确的查询结果，但收集的内容有限。鉴于各地档案网络建设不平衡、提供利用的网页内容少，甚至没有可供利用的网页内容等情况，全文搜索引擎技术难以发挥应有的作用。再考虑到档案利用有开放与未开放的特殊性，不可能将卷宗内容全文在网页上反映出来，只能提供档案卷宗的基本信息，再加上对网站数据库建设的时间没有硬性要求。因此，笔者认为，建立导航式档案网上检索系统采用分类目录技术比较合适，同时考虑到各地档案网络的不断发展及网页内容的不断丰富，全文搜索技术可以作为补充。

建立导航式档案网上检索系统，从理论上讲可以由国家档案管理部门承担，也可以由社会机构承担，进行网络经营(就像谷歌、雅虎一样)。但目前各地档案网络建设水平较低，内容匮乏，不可能完全像谷歌那样依靠全文搜索技术获取大量可利用的档案信息，还需要各地档案机构密切配合，提供可供利用的档案信息来共同建设档案信息资源数据库。因此，就我国集中式管理体制而言，目前由国家档案管理部门牵头建设比较合适，有利于发挥职能作用、协调上下级关系、制定标准规范、发挥系统的最大效用。在具体运作上也可以采取市场化的方法。建立一个能充分发挥作用、运行有序的导航式档案网上检索系统还要做到以下几点：

1、要建立一个档案信息供给机制。由于各地档案网站利用方面内容不多，建立资源数据库目前除部分自动获取网页内容外，主要需各地档案馆提供可供利用的档案信息。我们可以同时采取行政管理手段和技术手段，建立起正常的档案信息供给渠道。同时，各地要加强档案信息资源建设，加快馆藏档案上网步伐，将馆藏档案目录信息全部上网，扩大检索范围，为实现全文检索(档案信息网上自动采集)创造条件。

2、要制定网上档案信息标准规范。在兼顾方便检索和档案自身特点的基础上，统一档案信息的格式，包括档案题名、档案号、主题词、形成时间、馆藏单位名称及链接、联系方法及阅档条件等信息内容，建立一个科学的资源数据库。

3、要有良好的检索功能。要支持自然语言、关键词、主题词三种检索语言；支持特征字段检索(如档案题名，档案机构名，档案号等)；支持分类目录结构，按照特定属性进入相关类目，可以一层一层的查找，如艺术——美术——国画——画家——徐悲鸿。方便利用者准确、便利、快捷地查找所需的档案信息。

电子档案检索系统篇4

(上接210页) 又容易冲动的多拉一些古典时期风格纯正、章法由于运用了电子档案检索工具, 使得这项工作在半天之内全部完成了。这在以往简直是不可思议事。这就是当前档案管理工作实行电子档案目录检索的势所必然。而且, 由于它的作用意义不断地被人们所发现、认识、利用, 在实际工作中也就越来越受到普遍的重视和欢迎, 本人正逐渐推广到下面辅导点。

实践给笔者的体会是群众文化业务电子档案目录检索形成, 应当做好以下几点:

首先, 资料完备是前提。俗话说:“巧妇难为无米之炊”。没有日积月累的完备的资料, 就不可能提供详尽的素材。档案管理员的功夫在于对所有资料搜集、整理、及时、齐全地朝电脑里输入。并且不能是被动地等待每项业务工作结束之后再去搜集, 要求在事前就要主动筹划好, 把资料搜集的工作贯穿在整个活动的过程中。这是一项认真细致的、持之以恒的具体工作,

其次, 编目规范是基础。群众文化业务档案的编目力求合理规范, 讲究重点, 兼顾一般, 对文字、条例、分类都要兼收并蓄, 不能随意凭主观想象予以取舍, 而应尽可能要考虑到检索方便和存贮的实际效果。

再次, 排列有序是关键。档案目录检索要按照时间、内容进行有序排列, 力戒混杂乱序, 交叉夹集。遇有相互关联, 彼此涉及的内容, 也要分清祥略, 注明有关卷、页、章节、互见号等, 以便在检索时相互照应, 不致遗漏。

电子档案检索系统篇5

电子文件归档中存在的问题可以分技术障碍、管理缺陷两方面。(1)技术层的障碍。主要体现在3个方面：①业务系统的主要功能就是处理业务，应当具备低冗余、高效率的特点，而档案管理则因其要保证在较长年限内的安全性，则需要高度的冗余;②电子政务系统可扩展性被限制，档案管理功能嵌入面临着很大的挑战;③在对数据的管理权限上，业务部门比档案部门更加完整，但是，当清除积存数据导致链接变动时，档案部门可能不能及时找到所需的档案，从而影响了管理和维护的进度。(2)管理上的缺陷。①管理权限得不到保障。电子档案是存储在业务部门中的`，所以业务部门的管理权限应比档案部门的更大;②责任主体不明确。电子档案的管理权限实际上是由档案、业务部门共同分享的，一旦发生丢失或篡改的问题，很难确认责任归属。

1.2安全保障不足

现阶段电子档案的安全面临着很多的问题，从影响因素上看可以分为以下3方面。(1)技术原因。系统的技术水平直接关系着电子档案的安全性，一旦存在点奥不正当电脑操作者的攻击、病毒、软件与硬件存在漏洞、系统与设备发生故障等情况，均会造成电子档案的丢失或者损坏。(2)社会或者自然因素。比如：档案保管场地自身的条件、火灾、地震等因素均会产生很大的影响。(3)管理上的问题。比如：权限不明、操作不规范、工作人员失误等。

1.3整合共享方式不统一

电子档案整合共享概念的内涵非常模糊，从广义与狭义，宏观、中观与微观层面看均具有不同的内涵，这也就造成了电子档案整合共享不能避免的复杂性。此外，整合共享具有很多的模式，就档案实体而言，通常采用分散或者集中式的管理，使整合共享中经常遇到途径单一或多样、横向或纵向的体制、一致或异构的系统等矛盾，所以根据实际情况来看，整合共享的途径、方式会有各种各样的模式，不能统一。

1.4电子档案移交不规范

在档案双轨制的背景下，电子档案的移交面临着一定的问题。(1)档案的有机联系缺失。当前的电子档案移交中，大多移交的是单份的电子数据，未形成可以反应整体的档案，从而使移交档案缺乏关联。(2)档案的元数据不完整。双轨制的实施使人们存在备份的依赖心理，导致移交工作的不规范，进而造成元数据的丢失。(3)移交工作的效率被限制。由于纸质、电子档案的移交上存在时间差的问题，造成了工作量、成本的大幅增加。

1.5前端控制和全程监管的矛盾

前端控制和全程监管在现实中存在着一定的矛盾。前端控制、全程监管都是基于档案部门的位置，要求自形成初始，对电子文件进行全程的管理。但是，两者存在一定的矛盾，若实行了全程管理，档案部门则为主要的管理者，对前后环节进行同等的规划和管理，就不再需要前后端的理论;但是如果重视前端控制，那么档案部门就成为了后面环节的管理者，就不能很难实现对前面环节的管理。

2提高电子档案管理水平的对策

2.1规范档案移交

随着对档案管理需求的不断提高，在线归档已越来越重要，且应当作为归档的主要方式;而离线归档能够解决特殊格式或者一些涉密的档案材料，所以也是不可缺少的，可作为辅助手段。因此，对于电子政务系统中的档案应采用“在线为主，离线为辅”的归档方式。在归档规范方面应做到如下四点：①双轨制管理是现阶段的主要管理模式，所以应当将明确并区分电子、纸质两种档案移交的基本方法;②整理分析电子档案在线移交中的问题，一定要遵循档案的原始形式，预防复制形式下的双套归档，并慢慢转向单套归档;③明确档案移交各个阶段中档案馆、档案室的各自责任，以保证档案的完整、安全;④制定档案移交的标准规范，并完善移交的技术，促进单轨化的转型。

2.2安全保障措施

电子档案的安全会受到很多因素的影响，所以，要进行全方位的考虑：①技术上，强调自主研发管理系统的重要性，制定相应的加密、杀毒、备份、隔离等措施;②管理上，提高工作人员的安全意识，建立健全的监督管理体系，提高管理人员的专业水平等;③法律法规上，对档案管理的法规、标准进行完善，确定档案的凭证性，从而使档案的安全管理工作规范化。

2.3整合共享策略

档案管理工作应从档案本身拓展到现行文件的生成背景、环境及整个过程，因此在信息整合中应做到如下两点：①明确整合共享的内涵，在实践中基于信息、实体的整合共享联系密切，应当把两种相结合，形成信息、实体一体化的共享方式;②分散式和集中式电子档案的整合共享策略的实施效果是不同的，建议从共享效率、整合深度上分析各自的优缺点和应用的条件。

3结语

电子档案检索系统篇6

随着医院信息化建设的进行,电子病历作为临床医疗信息的基础和医院信息系统的核心构成了业务管理、医疗卫生决策系统的基础。但国内目前各大医院通常并不把电子病历管理视为一个独立的单元,电子病历管理系统一般都是作为医院信息系统的一个模块存在。目前,对于病历信息的查询浏览也只能通过查询患者的一些结构化的数据库信息得到该患者的ID号,然后通过病历的存储规则来找到相应的病历。每次得到的信息都是个别的,而且无法实现全文检索,存在于病历文本中的大量非结构化的信息不能作为检索条件,因而这些信息也不能为医疗工作者所利用。因此,目前电子病历管理系统的检索查询机制迫切需要向满足医生需求、科研辅助和采用全文检索的方向转变,为以后电子病历管理正式成为医院管理的一个独立分支打下良好的基础[1]。基于此,我们提出了基于Lucene检索引擎建立电子病历全文检索系统,它以基于关键字的全文检索技术为基础,能够提供方便快捷的方式为临床医疗、医学科研工作及病历管理提供支持。

2 电子病历的前期预处理

病历是患者在医院诊断治疗全过程的原始记录,贯穿于患者在医院就诊的各个环节中。由于目前病历信息的电子化大都附属于传统的HIS系统,但HIS系统并不等于电子病历系统,因为从电子病历的角度看患者信息应该是完整的、集成的,电子病历系统应该能够以统一的视图向用户提供患者的继承信息;而从传统的HIS每个子系统来看,患者信息却是局部的、分散的。所以要对电子病历进行全文检索,首先要建立一个规范的、合乎要求的电子病历描述模型,将分散于HIS系统中的电子病历信息读出并转换为统一形式的文件存储于电子病历库中。XML(eXtensible Markup Language,即扩展标记语言)就是建立并实现该模型的一个有效手段。

XML是一种结构化描述语言,其优势在于,它不仅是一种标识语言,更是一种可以定义描述对象结构的元语言。XML采用了层次化的面向对象的结构描述方法,非常适合于描述病历这样复杂的内容,在表达能力方面优于关系数据库[2]。

使用XML描述病历内容,要先定义病历内容的结构。在此基础上实现以数据库形式存储的患者信息到病历结构的转换,从而实现由以支持日常业务管理为目的的数据库描述到以患者为中心的描述。形成的XML文件是病历存储管理的基本单位。

3 全文检索引擎Lucene简介

Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式;其次通过抽象将系统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现;此外,与具体平台相关的部分(比如文件存储)也封装为类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率、容易二次开发的检索引擎系统。因此,Lucene得到了非常广泛的应用。

4 系统的设计与实现

4.1 平台和开发环境简介

本系统的平台和开发环境为:

操作系统:Windows NT/2000/XP;开发语言:Java,JSP;全文检索开发库:Apache Lucene 2.2;Web服务器:Apache Tomcat 6.0;开发工具:IBM Eclipse 3.2.0。

4.2 总体架构

电子病历全文检索系统主要实现对电子病历的表示、存储、组织和访问,即根据用户的查询要求,从电子病历库中检索出相关信息资料。其中心环节是电子病历内容的表达、信息查询的获得以及相关信息的匹配。

整个系统设计为4个功能模块:数据预处理模块、索引建立模块、全文检索模块和用户界面模块。各个模块的基本功能和模块之间的逻辑和数据关系如图1所示。

依图1中的序号,整个系统的信息处理流程为:

A.数据预处理模块读入电子病历的原始数据(一般以数据库表的形式储存在HIS系统中),将原始电子病历加工为XML文件,然后储存于XML电子病历库中;

B.索引建立模块读入XML电子病历库中储存的XML文件,把建立好的全文索引储存于全文索引库中;

C.用户通过用户界面模块提出检索请求,用户界面模块调用全文检索模块使用电子病历的全文索引进行检索,将得到的检索结果返回给用户;

D.用户查看了检索结果中电子病历的摘要后如果需要进一步查看电子病历的全文,可以通过用户界面模块直接根据检索结果中的文档ID从XML电子病历库中获取全文。

5 系统测试和评价

5.1 测试环境

(1)软件环境

测试环境采用Sun公司的JDK1.5.0,操作系统采用的是微软的Windows XP SP2。数据库服务器采用的是Oracle8i及其自带的JDBC驱动。

(2)硬件环境

运行服务器采用的CPU为Inter Pentium 3.0E,内存2 GB,硬盘160 GB。

5.2 测试结果

测试过程中一共选取了3个和疾病症状有关的关键词“肥胖”、“腹痛”和“恶心”作为测试检索条件数据,测试结果经过进一步分析计算后可以得到的数据见表1。

注:P@30指前30个检索结果中符合条件的文档数

由于测试数据集过大(共约26 000多篇),很难通过人工方式确定全部文档集中符合条件的文档数,所以无法有效地计算查全率;检索出的命中文档数量也比较多,但和搜索引擎一样,通常只有“First Page”的结果会被用户关注,因此我们计算的查准率只基于前30个检索结果。通过上表可以看出,本系统的查准率较高,基本达到了系统设计的性能要求。

6 小结

从测试结果可以看出系统满足设计要求,符合功能需要。但是仅仅基于关键字检索显然是不够的,下一步要实现“智能”全文检索还需要对系统进行基于语义的检索功能扩展,使检索结果不仅仅满足于与用户提交的关键字进行字面上的匹配,而是检索出与此概念有关的、用户真正想要的信息,以进一步提高查全率[3]。

参考文献

[1]王晓,罗二平,张健.基于语义的电子病历智能全文检索[J].医疗卫生装备,2008,29[4]:45-46.

[2]薛万国.XML与电子病历[J].国外医学:医院管理分册,2002[1]:33-34.

电子档案检索系统篇7

电子商务网站的建设质量,直接关乎到企业在信息化大潮中的竞争能力。对于广大在因特网上开展经营电子业务的中小企业来说,他们面对的一个普遍状况是可以迅速建立起自己的商业站点,通过展示商品、价格、联系方式等信息来争取潜在的客户,但是,面对海量的信息资源,缺乏一个实现简便、成本廉价、运行稳定、检索高效的站内信息检索系统。这个问题已成为制约电子商务发展的瓶颈。针对以上问题,引入基于JAVA的搜索引擎开发工具包Lucene,可以提供很好的解决方案。

Lucene是一个高效便捷,兼顾可扩展性的Java全文索引引擎工具包,它可以方便地嵌入到各种应用中,实现对目标文档的全文索引并提供检索接口。但是,Lucene系统对于多种格式文档(如商品演示幻灯片)的支持、对中文查询检索的支持及系统应用整合这些关键技术部分,还有待于国内广大教育技术人员和系统开发人员进行深入探究,才能使Lucene在实际应用中发挥出优异的效能。

1 Lucene全文检索系统的功能结构概述

LLuucceennee的的开开发发者者DDoouugg CCuuttttiinngg的的目目标标是是为为各种中小型应用程序加入全文索引、检索功能。顾名思义,全文索引是将待检索文档所包含的文本及其他可供查询的信息抽取出来,然后扫描文本信息的每一个语意基本单元———词汇。全文检索系统主要包括词汇分析模块、索引功能模块、查询功能模块、对外开发接口四个部分,具有索引文件维护更新、索引结构优化等基本功能。若整合进后台的网络信息获取模块(网络爬虫)和存储系统,就可以形成标准的信息检索引擎。

1.1 Lucene系统的索引结构

Lucene在索引结构上属于倒排索引结构,在建索操作中,以空间换取时间,对需要检索的文件、字符流进行全文索引,并不断为数据的更新创建新的小型索引文件,只在规定条件下将新生成的索引文件合并入主索引;从而使模糊查询变为多个可以利用索引的精确查询的逻辑组合,大幅度提高了检索的效率。

1.2 Lucene系统功能结构

Lucene的系统功能结构图如图1所示,图示清楚的表明了Lucene系统的功能实现过程,首先,不同格式的文本文档被相应的解析器处理,解析器分析文档的文本内容,抽取文本,形成Lucene的Document处理对象,然后Lucene启动分析器和建索模块,建立索引文件,存储在内存或磁盘上,用户查询要求首先被输入查询分析器中进行分析,然后查询分析器将分析结果转换为Lucene要求的查询格式,启动查询器,最终将查询结果按评分值通过Hits类的实例返回给用户。

2 Lucene建立产品资源搜索系统的若干关键技术

2.1 对多种网上常见的文档格式的支持方法

Lucene只能对其定义的Document类中的实例进行操作,任何类型的文档,都必须被相应的解析器转化为Document对象,Document类的实例是承载数据的实体,即代表一个被索引的数据单元。一般地,可以实现一个通用的接口Document Handler,该接口的功能是处理输入流Input Stream对象,生成Document实例,以便解析器实现。相关代码如下:

下面给出了一个处理常见的商品演示幻灯片.PPT格式文件,从中抽取文本,构造Document对象的例子。具体说明实现Document Handler接口的方法。在此我们应用第三方JAVA软件包POI来作为解析器,具体继承POI的org.apache.poi.POIText Extractor类的Power Point Extractor子类,关键代码如下:

类似地,可以写出多种格式文件的Lucene处理接口,这里不多作赘述。

2.2 使Lucene有效支持中文文档的方法

对于中文来说,全文索引首先还是要解决语言分析的问题,实际应用只能选取有一定应用基础的中文词库,按照词表匹配的方式来进行中文词汇的切分,才能达到令人满意的分词正确率。目前,国内多采用了中科院计算技术研究所的ICTCLAS,在获得ICTCLAS的java版本后,可以方便地编制中文文本分析器。为了让Lucene系统全面支持中文操作,还需要对内部的相关部分进行设置,将新的中文支持包Lucene_Ictclas.jar中添加入Analysis包中。相应地,前端查询表单的查询词获取语句也要修改:query String=new String(request.get Parameter("query").get Bytes("iso8859-1")

使系统支持中文关键词检索。

3 基于WEB的Lucene查询系统整合实例

Lucene本身只是一个基于JAVA的索引工具包,要真正使其在站点内部的文档资源搜索系统中发挥核心作用,必须将Lucene与前端基于WEB的查询系统进行整合。下面提供了一个简化的应用范例,可以作为Lucene应用开发的基本参考。

本例JAVA开发环境为My Eclipse 5.5GA、Lucene Library;系统运行环境:WWW应用服务器Tomcat 5.0、JAVA JDK 1.4。

首先,在My Eclipse中新建立一个动态WEB项目,整个信息查询系统主要包含4个功能模块:

(1)用户界面(queryinterface.jsp):该模块负责提供系统与用户的交互,即允许用户通过该界面的表单向WEB应用服务器递交查询请求,并将查得结果按相关度呈现给用户。

(2)需求管理(Query Processor)模块:该模块在服务器端接受用户的查询请求,并将查询请求转换为Lucene查询语句传递给检索模块。最后,将查询结果返回给用户界面。该模块应用servlet来完成,Servlet的名字和具体的类的对应关系在web.xml文件里指定。下面列出该模块的主要代码:

在代码中可见,do Post方法从客户端得到查询词之后,实例化在检索查询模块中定义的Search Manager类,调用该类的search方法。最后,将查询结果返回给客户端。

(3)检索查询模块:该模块负责检索Lucene索引文件,将结果返回给需求管理模块,主要调用Lucene API来完成程序功能。查询检索模块主要定义了两个类,分别是Search Manager和Search Result Bean,前者实现查询功能,后者是一个Java Bean,用途是声明查询结果的结构。

(4)索引建立模块:该模块的主类IndexCreater通过调用Lucene API以及第三方提供的各种格式文档解析器来完成文档建索工作。Index Creater提供了三个方法:建立索引方法create Index添加索引文件add Documen方法和判断索引是否存在if Index Exist方法。

上述WEB项目建立后,可以在配置好的Tomcat服务器上测试运行系统。

结束语

基于Lucene内核的站内信息检索引擎,为电子文档资源建立全文索引系统,完善查询机制,发挥更多效益提供了牢固的平台。相信,随着广大软件开发人员对Lucene系统研究的日益深入,一定会使其在电子商务领域中发挥出更科学、更全面的作用。

摘要：讨论了应用Lucene建立站点内信息全文检索系统需要注意的若干关键技术,概要介绍了Lucene全文索引工具包的索引结构与功能特点,进而从实际开发的角度,给出了简单实例,旨在为电子商务系统开发人员提供参考。

关键词：电子商务,Lucene,索引,整合

参考文献

[1]孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,(29):125-128.[1]孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,(29):125-128.

[2]李刚,宋伟,邱哲.Ajax+Lucene构建搜索引擎[M].北京:人民邮电出版社,2005.[2]李刚,宋伟,邱哲.Ajax+Lucene构建搜索引擎[M].北京:人民邮电出版社,2005.

[3]谭鸿,黎俊鸿.Lucene In Action中文版[M].北京:电子工业出版社,2007.[3]谭鸿,黎俊鸿.Lucene In Action中文版[M].北京:电子工业出版社,2007.

[4]The Apache Jakerta Project[EB/OL].http://jakara.apache.org/lucene/,2006.[4]The Apache Jakerta Project[EB/OL].http://jakara.apache.org/lucene/,2006.

电子档案检索系统篇8

关键词：综合档案馆,公共图书馆,信息检索系统,差异影响因素

国际上档案界学者特别重视有关档案信息研究,早在20 世纪就意识到,关于各国档案思想观念最大的变化,就是档案工作最初是作为司法行政的辅助部门,转变为社会财富,成为一个重要的社会信息机构、信息中心。到了20 世纪末,公众对档案馆有了进一步了解,他们都认为档案馆是由交税大众的钱建起来的,换句话说,档案馆是公家的,是人民的。其职责与功能便是为人民办事,由人民来管理。在西方发达国家,由于档案意识强,网络等基础设备比较先进,使得档案馆信息服务已发展成为一种比较稳定的档案职业理念与档案工作促进机制。我国档案界也在加强对档案信息方面研究,他们研究方向重点在档案信息服务方式分析与服务经验介绍等。关于公共图书馆信息服务利用方面研究,最早还在19 世纪70 年代美国学者S.S.Green第一次公开讨论了公共图书信息参考咨询服务概念的讨论,还概括了参考咨询馆员的四项主要职责。Ferson分析,在未来大学图书馆关于参考信息服务方面,一定要加强其在现代化网络中的作用,主要表现在两方面,一方面要加深网络环境发展,另一方面要拓宽网络环境的发展。还有就是支持比较完整友好的网络信息服务模式。

后来不久又出现了集成化信息服务,集成化信息服务是建立在信息集成理念上的信息利用服务,是对分布服务的新拓展。Sutton认为集成化信息服务的特征主要是指资源加工、采集以及储存数字化,信息共享自由化、信息传递网络化等。从国外有关研究图书馆信息服务文献看:“图书馆信息服务的研究从20 世纪60年代末起以retrieval(检索)服务为主,80 年代起,图书馆信息服务进入database、online、cd- rom(光盘数据库)建设时期。进入90 年代,电子信息、电子图书馆等成为新的热点,90 年代中后期digita出现关于digital library、digital service(s)的研究越来越多,digita与electronic的研究并存。从21 世纪起,数字信息服务成为未来发展必然趋势”[1]。

一、信息检索的概述

信息检索最早来源图书馆的文摘索引与参考咨询工作。从19世纪后期开始,发展到上个世纪40 年代,检索已经成为用户服务重要项目,索引已成为图书馆比较重要的独立使用工具。本论文所指的信息检索,就是指信息服务人员依据用户的需求,通过检索工具,采取相应的检索方法,对某一区域内的专题或特殊内容的有关信息资料来进行搜索,是属于一个知识有序化信息获取与识别过程。

二、综合档案馆与公共图书馆信息检索系统差异的影响因素分析

1.关于社会环境影响因素分析。社会环境因素是一个复杂的因素,其主要包含政治、经济、科学技术发展程度以及用户的思想与信息意识等。这些因素均会对用户使用信息的需求与行为产生重大影响,从而会进一步影响信息检索系统的设置导向问题。特别是综合档案馆的信息检索受到社会环境因素影响更为严重,还会出现大起大落的现象。(1)国家政策、法律方面因素。全国的档案工作都是在国家档案政策、法规控制与宏观指导下进行的。倘若与国家利益、安全或者其他不适合开放的档案开放时限均要超过三十年才可以开放,而且还因为档案种类太多,数量庞大、价值大小不一,机密程度不一样等方面原因,使得开放程度也不好控制。在实际开放过程中就采取简单的划一的限制政策,这样就阻碍了档案最大限度地开发利用。而图书馆由于图书资源一般不会涉及国家机密与安全信息,故在一般的情况下,公共图书馆受政策、法律变化影响不大。(2)受经济方面影响因素。一方面从社会主义市场经济来讲,因为社会主义市经济加快信息市场的产生与成长。而档案信息与图书馆信息是社会信息资源的重要组成因素之一,通过促进档案与图书信息资源的发展,可以间接地实现生产力推动社会经济发展,反过来档案与图书馆信息资源也可以得到社会经济发展支持与保障。另一方面档案信息作为国家信息系统中心最重要信息构成部分之一,有着其他信息资源没有的功能,加强完善档案信息检索功能与数据库建设,可以提高综合档案馆社会地位[2]39。

2.关于档案信息与图书信息本质属性因素。本文所论述的属性是指综合档案馆与公共图书馆情报信息各所拥有的特有的属性,也是两者本质上区别。(1)关于综合档案馆档案信息资源。综合档案馆中的很多档案资源,均与国家安全与商业机密性有关,保密性很强,开放利用受到限制程度也很大。此部分档案信息资源所特有属性就决定了综合档案馆在用户信息检索利用时,不但要考虑到满足用户的需求,还要考虑到信息资源的隐私权、著作权、以及国家安全与机密等因素,这致使综合档案馆档案信息检索就更加多样化与复杂化。对于综合档案馆来说,不但要考虑到其“用”的价值,还要考虑到其“藏”的价值,虽然要根据用户的需求为用户提供方便信息检索,但更重要的是用从长远的眼光,从大局的角度去科学管理综合档案馆的档案信息资源。(2)关于公共图书馆信息资源。公共图书馆的信息资源通常就是指通过进行处理过(即组织、加工、筛选等),而且还能满足人们各类需求的信息的汇集。图书是一种传播知识的媒介,是可以让人阅读的工具。故图书除了极少机密性图书会受到限阻外,大部图书是不受限阻的,可以公开的。因此,公共图书馆可以做到以“用户为导向”的服务宗旨。这种服务思想理念主要表现在信息检索系统上就是唯用驱动,根据用户的需求为导向,非常重视用户目前的需求变化。档案馆一般比较注重孤本或原稿,而公共图书馆只有因年代比较久才会出现孤本,一般会批量印刷。另一方面,公共图书馆的信息资源绝大部分是知识,其内容是可以传播、购买或赠送的。图书资源没有唯一性与原始性,且具备替换性。使得公共图书馆资源可以通过现代化网络技术,对各种相关信息进行加工处理,并在信息检索系统研发设计时,就表现出更强的通用性。与综合档案馆信息资源要考虑到机密性、安全性那么复杂完全不一样。图书馆信息的可复制性,、可替代性以及共享性与档案馆的孤独性、原始性等特点有着本质的区别,对公共图书馆与档案馆的信息检索系统的研发与应用有着最明显的影响[3]50。

3.用户因素。(1)用户的分类。档案用户的类型一般与用户的工作职业、性质有关。通常有以下几种类型:档案理论研究员、组织管理人员、工程技术人员以及一般用户(主要指从事性业务工作人员,与临时使用档案人员)。在这些用户中,而组织管理人员是档案使用的主要用户群体,他们在为企业事业单位制定各方面的政策、法规以及行政管理制度等,都经常会用到档案信息。而档案研究人员也是档案使用用户重要构成部分,在这类用户中,以研究历史专家、学者最多。他们为从事某一项专题研究,或者编修历史书籍类等,通常会以档案文献作参考资料。公共图书馆一般是为本地区各方面服务的,用户类型是层出不穷,呈现复杂多样性。根据信息使用的目的不同,可以分以下几种类型:研究型用户、生产型用户、学习型用户、生活用户以及欣赏用户等。对于图书馆来说,用户类型主要以学习型与欣赏型两种类型为主,这与人类把图书看作是用来学习知识,陶冶思想情操的工具或叫媒介是非常相符的。由于社会的不断发展,我们已进入信息化、知识化时代,人们对信息的要求与公众使用信息的意识也在不断提高,公共图书馆更注重其他几种类型用户的对信息需求研究。(2)用户信息需求特点差异。档案用户与公共图书馆用户使用信息的特点存在很大区别。主要表现以下几个方面:①档案用户的使用信息的内容偏重于信息的真实性与原始性,而图书馆的信息用户却偏重于信息的系统性与全面性。②档案用户的需求比较重视务实,而图书馆用户对信息需求却重视及时性,方便快捷。前者偏重于查证历史事实,后者侧重于最快最方便获得所需信息资源。③档案用户需求出现阶段性的特点,而图书馆用户需求出现连续性的特点。4.使用权限上的区别。由于档案关系到国家安全与商业机密,故档案都有使用范围与开放时间限制,而图书馆信息是一种社会化信息,可共享性与可替代性,利用限制就少得多,这就在一定程度上把图书馆信息使用范围扩大了[4]51。

参考文献

[1]汪碧宇.新时期档案工作改革研究[D].安微大学硕士论文,2006.

[2]洪文梅.面向大众的公共图书馆信息素养教育[J].公共图书馆,2010(4).

[3]知识经济时代公共同图书用户需求与服务式[J].科技情报与开发,2002(4).

电子档案检索系统篇9

随着网络的普及, 互联网上积累了大量资料, 除了部分专业图书馆收藏的电子资料以外, 还有相当数量的资料是随着互联网的扩展而产生的。理论上来说, 资料越丰富则被利用的概率越高[1,2,3], 但另一方面, 由于信息量呈爆炸趋势增长, 资料将变得越来越分散, 动态性也越来越强, 信息检索对于普通使用者而言则更加困难。因此, 现代电子图书馆的一个重要研究方向就是如何整合、系统化检索方式, 供读者使用。其中面临的一个重要问题就是系统异构造成的通信困难。本文将试图探讨这一问题, 并提出相应的解决方法。

1 检索协议技术要求

1.1 Z39.50协议的优缺点

图书馆界曾有一个Z39.50信息检索协议, 当时很好地解决了异构系统的信息检索难题。但该协议是建立在统一MARC格式基础上的, 即所有电子图书馆的网络系统无论用什么, 其资料格式均必须使用MARC格式, 否则不兼容Z39.50协议, 也就无法实现整合检索。除此之外, 编目规则也要一致, 必须符合Z39.50协议要求。显然用该方式构成的电子图书馆系统虽然在操作、检索上使用了异构系统, 但其数据结构已经被人为地统一化了, 所以从根本上解决了异构问题。此外, 由于利用了各图书馆OPAC的虚拟联合目录 (Virtual Union Catalog, VUC) , 用户可以很方便地建立自己的检索目录和资料库。这是Z39.50的优点。

Z39.50协议的缺点也很明显。随着技术的发展, 有更多比MARC格式好的存储方式被不断开发出来, 很多新建的电子图书馆不再使用单纯的MARC, 有时甚至有多达几十种不同格式的资料存在。不同格式意味着不同的文件管理方法以及随之而来的不同检索方式, 但用户是不会理会这些技术困难的, 他们永远希望技术对他们是透明的, 可以用一个统一的系统或界面实现搜索功能, 获取各种不同类型的资料。于是图书馆界乃至整个信息技术界开始了新的研究, 并发展出OAI-PMH、OpenURL等新的协议或标准。

1.2 异构电子图书馆系统通信需求

从目前的工作实践来看, 异构电子图书馆之间若要实现无障碍通信, 需要满足以下6个条件:

1.2.1 计算单位互通

例如各个电子图书馆的服务器使用的CPU、GPU等部件, 应能支持远程访问操作。这样, 读者可以方便快捷地在不同图书馆服务器上存取资源。而要实现计算单位互通, 需要各服务器提供统一的语言协议和事务协议。

1.2.2 效率必须不低于现有统一格式的服务网络

异构系统为了实现对用户读者的透明化, 必须对用户消除异构特征, 即通过某些特殊运算, 将不同类的系统进行虚拟统一, 使用户以为使用的是统一格式的系统。这些特殊处理肯定会涉及到系统的额外开销。通过一定的优化措施, 可以使异构系统虚拟统一后的效率等于或高于现有的统一格式的服务网络。否则用户会因为速度明显变慢而失去耐心, 并最终放弃对新系统的支持。

1.2.3 检索语言统一

图书馆是为公众服务的机构, 不能要求读者去学习不同的检索语言、适应不同的检索环境。因此需要异构系统具有统一的检索语言, 至少在语法方面不能有过多差异。

1.2.4 为将来扩充留下余地

这里的余地更多是指为将来可能会有的新的系统类型留下接口。这样即使有未知系统出现, 并加入到服务网络中来, 也可以很快兼容, 而不需对现有系统作太多改变[1,2,3]。

1.2.5 实现成本相对较低

异构系统的整合实质上是在已有的电子图书馆系统上做整合工作, 因此若所需成本过高, 将会伤害图书馆本身参与此项工作的积极性。

1.2.6 实现分布式存储

不同图书馆在藏书方面有自己的偏好, 因此可以减少重复建设, 在节省资源的同时还能在各个专业方向做到精和深。在此基础上, 只要实现分布式存储, 就可以让读者只用一个终端即可享受全面丰富的电子资源。

2 异构系统所需通信协议

Z39.50协议是最早解决图书馆资源统一检索的协议, 但如今已不能满足图书馆建设和读者查询检索的双方需求, 因此OAI-PMH、OpenURL等协议、方法应运而生。

2.1 OAI-PMH协议

OAI-PMH协议的基本原理如图1, 通过对资料进行摘要, 从而让各自独立的应用程序实现相互通信。

图中的扩展程序对用户屏蔽了数据库结构、数据格式本身的差异, 而将问题留给了更加底层的数据库本身。用户使用OAI协议输入的检索语句会被应用程序按所辖数据库本身进行解释, 转换成对应的特殊语言 (如SQL等) 。用户输入一般使用http协议 (因为浏览器是最易得的) , 而返回给用户的输出则一般以XML形式组织。

OAI-PMH协议将服务器明确分为两个部分, 用户服务部分和数据库。一般的图书馆系统在加入此协议时可以选择扮演其中某一个角色, 也可以两者的任务都承担, 但这一般只有较大的电子图书馆才能做到。

在OAI-PMH协议中用户服务部分通常会使用一类叫做摘要程序的应用程序。摘要程序会将OAI-PMH协议标准命令发送到各个资料存储服务器, 然后将返回的摘要作为查询结果返还给用户。为提高检索效率, OAI-PMH协议中使用了索引。如此一来, OAI-PMH协议做到了格式对用户透明, 统一了用户界面和检索语言, 并拥有较好的检索效率。

2.2 OpenURL标准

OpenURL即所谓开放链接, 是一种用于解决资料系统相互不兼容问题的方法, 目前已形成了一套完善的技术标准。用OpenURL可以很好地进行资源整合, 这是因为OpenURL标准中的URL是带有元数据信息和资源的地址信息, 使得URL可以作为独立的应用程序来运行[2], 于是二次文献动态链接到原文的服务问题就迎刃而解了。使用OpenURL标准意愿最强烈的就是图书馆行业, 因为其电子在线服务可通过使用OpenURL设置链接解析器, 从而只用浏览器和网页就能实现所需服务。

2.3 从Z39.50协议到OpenURL的关联

Z39.50协议在图书馆界历史悠久, 应用广泛。因此根据第一节所述6 个条件中的成本考虑, 要推广OAI-PMH协议则必须实现其与Z39.50协议的兼容。这在技术上不难实现, 因为Z39.50协议所辖的文件格式是统一的。

简单地说, OAI-PMH协议只完成了两个工作:对所辖资料构建目录和索引、运行和维护相关应用程序。它甚至不包含应用程序和数据库, 因为它仅仅是将不同的应用程序加上了一套统一的“外壳”, 并指导各种程序用合适的方法读写不同格式的数据库。

而Z39.50协议有一个致命问题, 即语法复杂且各系统不统一。一个直接的后果就是不同图书馆由于采用了不同的检索系统, 虽然都支持Z39.50, 但得到的结果不尽相同, 而且其中还有错误项。造成这个问题的根本原因是Z39.50没有在协议中对语法进行严格规定, 当时出于兼容系统的考虑目前看来是一个错误。其次是Z39.50没有考虑到某些图书馆服务器因故不能上线的可能, 从而导致用户的资源开销无辜增加。

2.3.1 OAI-PMH与Z39.50比较

显然, 要实现兼容, OAI-PMH协议必须克服上述缺陷。因此, 现将OAI-PMH和Z39.50两种协议进行全面比较, 如表1所示。

从表1中看出, OAI-PMH和Z39.50 两种协议不能相互替代, 因为其设计初衷不同, 实现方法不同, 所以只能实现联合服务, 而不是单纯地由OAI-PMH协议进行简单的替换工作。因此, 数据库建设也不能非此即彼, 而要做到OAI-PMH和Z39.50两种协议都兼容。虽然提高了建设难度及成本, 但仍然是可行的。

2.3.2 OAI-PMH和Z39.50协议简单兼容方法

一个简单的兼容方法是在网桥或网关上使用Z39.50协议, 使用Z39.50的服务器则可以处理OAI-PMH命令, 实现变相的OAI-PMH检索。而OAI-PMH处理后的摘要就可以作为输出, 返还给读者。

2.3.3 OAI-PMH和OpenURL

OAI-PMH协议自上而下的层次分别为[4]:

(1) OAI-Comformant:OAI的标准协议集合, 定义了所有数据库应该支持的协议。

(2) OAI-Registered:已注册的OAI-PMH系统。该注册是在OAI-PMH官网上实现的, 注册用户需提供一个base-URL, 如果符合OAI-PMH协议则通过, 并由OAI-PMH协议维护其数据库。

(3) OAI-Namespace-Registered:资料在数据库中的命名规则。这个规则要符合OAI-PMH协议规定, 具体来说由以下3个属性组成:①oai:此字段标明数据库的命名规则遵循协议;②:资料所在数据库在OAI-PMH注册系统中的唯一标识;③:数据库名。

该方式很好地规范了OAI-PMH协议, 使之和OpenURL标准达成一致。各种资源都可以通过和在互联网上进行定位, 符合OpenURL的要求。

在OpenURL被NISO AX建立时, 就是为了做出一个框架作业标准。因此, 使用OpenURL架构的服务器, 都需要在NISO AX做一个注册, 并共享其资料。这个标准在互联网上得以广泛接受, 并最终成为了电子图书馆必须遵从的标准之一。 NISO AX在2002 年建议将OpenURL和OAI整合, 具体的做法就是在OpenURL注册上使用OAI-PMH的协议标准, 这样OpenURL解析服务器可以及时地更新和获取最新的资源信息摘要, 提高服务效率。从这个角度上看, OpenURL和OAI-PMH也是采取联合服务的模式进行整合的。

3 使用OAI-PMH协议整合异构图书馆数据库方法

一个不可逆转的趋势是线上资源数量会无限制地增长。电子图书馆的馆藏量也会以比传统图书馆高得多的速度增长, 因此必须对馆藏资源进行有效管理。简单地说, 就是要优化各图书馆的数据库存储, 提高检索效率, 减少冗余。

3.1 摘要和摘要目录

摘要是对资源的一个简要描述, 这个描述是站在读者查询资料的角度实现的, 因此带有一定的主观性。摘要的用途可以分成三类:帮助检索、帮助资料库 (即数据库) 通信和帮助建立索引。

而摘要目录则是对已有摘要进行的一个编目, 方便不同系统的检索。显然, 摘要目录也是一个数据库, 其中的每一个元组对应一个摘要。如果让各图书馆分别建立摘要数据库, 一定会造成又一次的不统一, 从而影响整合工作。那是不是就要对摘要和摘要目录进行严格的统一标准呢?其实这是不需要, 也是不可能的[5]。

综上所述, 摘要是带有主观色彩的, 各个图书馆由于所处立场、读者群不同, 其摘要标准肯定千差万别。用一个静态标准去管辖主观认知是不可能的, 即使真的可行, 牺牲的也是各个图书馆的自主性和特色, 这样就限制了学术自由。因此, 整合摘要工作需要做的只是如何去“翻译”不同图书馆之间的摘要。

3.2 用OAI-PMH协议整合数据库方法

用OAI-PMH协议进行数据库整合, 离不开摘要的帮助。由于摘要具有通信能力和良好的可扩展性, 是OAI-PMH非常擅长处理的信息模式。各图书馆只需将自己的数据库进行摘要和编目, 然后按照通用的摘要格式提供给OAI-PMH服务器即可。OAI-PMH服务器在之后的工作中则只需考虑检索本身的技术实现过程, 而不用关注具体的资源类型。具体整合步骤如下:

(1) 在OAI-PMH协议中规定摘要的术语集。这一步是基础, 相当于让不同图书馆学习使用一个通用语言, 便于日后交流。

(2) 在OAI-PMH协议中规定摘要的统一格式。摘要的格式统一, 是通过将摘要视作若干属性组成的集合, 属性的数据格式、顺序要一致, 并且要符合第一步中所规定的术语集。

(3) 设立丰富的摘要参照案例。不同图书馆仍会在统一术语集和格式后做出不一样的摘要, 虽然我们鼓励各图书馆有自己的特色, 但仍然希望对同一资源的描述不要相差太远。因此需要设立相对丰富的参照案例, 类似法律中的判例。当不同图书馆的描述发生矛盾时, 以参照案例为判定依据。

(4) 数据处理。这是根据用户、图书馆的要求, 对数据库进行读写操作的过程, 也是整合异构图书馆系统的目的所在。

(5) 修正完善。整合过程中, 会不断发现问题并解决问题。好的系统应该有自学、自我优化的能力, 从而能做到越用越快、越用越准。这个过程需要人工的时常干预, 更需要在系统设计的最开始即赋予系统本身自动优化的能力。

3.3 已有成果

当前已有大批电子图书馆 (包括在线资料库) 使用了OAI-PMH协议兼容模式, 整合了各自的资源, 完成了联合检索功能。从目前使用情况来看, 检索效果良好。这些电子图书馆 (资料库) 包括:大英简明百科全书 (H05) 、大英百科全书线上资料库 (H06) 、世界美术资料库 (E01) 、科学月刊合订本资料库 (L02) 等。而牛津大学图书馆在线等大型图书馆也正在就OAI-PMH协议兼容工作进行系统升级。相信不久的将来, 世界大小电子图书馆、在线资料库都会相互联通, 普通读者可以在世界上任何一个有浏览器和互联网接入的终端上检索、获取所需的任何资料。

4 结语

首先要肯定的是, 目前已采用OAI-PMH协议的电子图书馆在联合通信、用户体验等方面表现相当不错, 但也面临以下几个问题:① 动画、视频类资料无法使用OAI-PMH协议检索;②商学类资料库由于服务器组织形式特殊且复杂, 对OAI-PMH协议兼容性很差;③中文语义理解尚需改进;④OAI-PMH协议仍缺乏一套最佳的优化管理措施, 在大规模检索过程中效率没有较Z39.50协议有明显改善。

基于上述分析, 本文对在电子图书馆中采用OAI-PMH协议提升检索效能的技术发展, 提出以下展望:

(1) OAI-PMH协议尚需建立一套合理的协调、通信机制。由于各图书馆仍是独自完成建设工作, 因此软、硬件环境还是异构的, 即使兼容OAI-PMH协议也会有各自不同的理解和侧重点。因此需要一个凌驾于协议之上的协调机制, 对资料库进行最基本的约束, 这样才能更好地进行通信和联合检索。

(2) 应建立一个基于OAI-PMH协议的系统开发行业标准。软件开发商不同于图书馆, 是系统的制造者, 提供成熟的系统供图书馆使用。因此, 若希望OAI-PMH协议能够得到进一步推广, 需建立起一个基于OAI-PMH协议的系统开发行业标准, 以指导系统开发人员的工作, 而图书馆本身则无需考虑具体系统的构成和工作原理。

(3) 更多图书馆会参与到异构系统整合工作中来。各图书馆由于长时间的运行工作, 其系统环境区别很大。异构系统实现兼容整合是一件复杂的系统工程, 但整合资源, 提供优良的检索、阅读服务是大势所趋[1,2,3]。因此会有更多的图书馆、资料库积极投身于这项工作, 最终实现全球图书馆的大联合, 让任何地方的读者都能享受一致而优质的服务。

摘要：首先提出当前电子图书馆由于系统异构造成的兼容问题, 然后就Z39.50、OAI-PMH和OpenURL等协议及标准对整合异构系统及所含资源的作用和效果进行详细分析, 并就使用OAI-PMH协议进行系统整合的步骤和方法加以说明, 最后对电子图书馆的联合检索应用前景进行总结和展望。

关键词：电子图书馆,异构系统,OAI-PMH协议,联合检索

参考文献

[1]杨威.Privacy industry and protection:information security against intelligence collection[M].香港:德坤泰印书馆, 2013:116-119.

[2]杨威.电子化图书馆资料的多重属性问题和相应对策[J].图书馆理论与实践, 2008 (2) :15-16.

[3]杨威.在电子图书馆文献资源优化中应用预测型线性规划及思考[J].图书馆理论与实践, 2010 (6) :5-8.

[4]杨志刚.KBART:知识库与相关工具——UKSG与NISO合作探讨OpenURL供应链数据问题[J].图书情报工作动态, 2010 (8) :27-28.

煤矿安全培训电子档案系统研究篇10

在吸取了众多的事故教训之后, 煤矿安全培训在煤炭安全生产中的重要作用越来越受到重视, 而作为煤矿安全培训教学与管理工作的主要组成部分, 煤矿安全培训档案信息化建设也提上重要日程, 《国务院安委会关于进一步加强安全培训工作的决定》 (安委[2012]10号) 明确提出:“加强安全培训管理信息化建设。开发安全培训信息管理系统。”为响应国家安全培训档案信息化建设的号召, 提高煤矿安全培训档案管理部门的信息化管理水平和工作效率, 规范档案管理流程, 实现培训信息共享, 探索煤矿安全培训内在的发展规律, 同时也为事故的调查处理提供“凭证”, 结合云南煤矿安全培训工作的实际, 云南煤矿安全技术中心开发了云南煤矿安全培训电子档案系统。

二、国内外档案管理信息化建设现状

自上世纪90年代以来, 计算机技术与现代通讯技术的结合, 使世界各国的档案工作正朝着数字化、网络化的方向发展, 在美国、英国等西方发达国家, 已经普遍运用了各种新技术来管理和利用档案。在档案的数字化管理和网络化利用方面, 美国无疑是走在世界的前列。紧随美国之后, 英国、加拿大、澳大利亚、新加坡等国也先后着手推进档案信息化建设。西方国家发达的电脑网络, 使得档案通过网络共享成为现实。许多公共档案馆或专门档案馆都建立了自己的网站, 公众可以在网站上实现在线查档、实时浏览、远程传送等等功能。

2002年11月, 国家档案局发布了《全国档案信息化建设实施纲要》 (档发[2002]18号) , 《纲要》对“十五”期间档案信息化建设的指导思想、目标任务作了专门部署, 具体明确了档案信息化建设的基本内容和建设要求。2005年12月, 在北京召开的全国档案局馆长会议审议通过了《档案事业发展“十一五”规划》, “国家数字档案建设与服务工程” (简称“金档工程”) 作为“十一五”重大建设项目正式启动。2010年国家档案局发布了《数字档案馆建设指南》, 对国内的数字档案馆建设提出了总体性的指导意见。但煤矿安全培训档案信息化方面尚处于刚刚起步阶段, 全行业大部分仍采用传统方式进行档案管理。虽然部分地区也进行了档案信息化建设的探索和尝试, 但仍停留在信息的采集和保存层面上, 远远没有发挥煤矿安全培训电子信息档案的核心价值。

三、研究的基本内容与拟解决的主要问题

本研究主要研究和实现煤矿安全生产培训的档案采集、档案查询、档案管理以及数据分析, 开发出一套涵盖煤矿安全生产培训业务流程的电子档案管理系统。因此系统应具备以下功能:

1.为适应复杂多变的业务需求, 需要实现自定义工作流程及自定义工作表单的功能。

2.设计一套可靠的安全机制。煤矿安全生产培训档案虽然不是机密性文件资料, 但牵涉到职工培训取得资格证书的法律效力问题, 以及职工个人隐私数据保护的问题, 就需要设计一套安全机制, 用以确保数据传输、存储的安全。首先要研究系统的安全隐患, 从硬件因素、软件因素、人为因素、环境因素等四个方面进行研究存在的不安全因素, 并提出相应的解决策略。

3.提高数据库的数据检索效率。煤矿安全生产培训档案业务数据具有非常庞大的数据量, 系统要保证在海量数据库中快速检索出所要的数据。

4.大数据分析及“人”的安全评估。加强对煤矿安全培训档案数据的规范化管理, 和大数据的深度分析, 可以探索研究煤矿安全培训内在发展规律, 实现对安全生产中不安全“人”的因素进行科学预测、评估、预警。

四、研究方法及技术路线

(一) 研究方法。

云南煤矿安全培训电子档案系统主要采用问卷调查法、文献法、个案研究法等多种研究方法, 结合国家安全生产监督管理总局、国家煤矿安全监察局、云南省关于煤矿安全培训的有关规定, 深入煤矿企业调研, 构建起符合煤矿安全培训实际需要的档案管理信息化模式。

1. 问卷调查法。

针对煤矿从业人员、煤矿生产企业、培训机构、政府监管部门进行调研, 了解目前煤矿安全培训档案信息化的不足, 收集实践性的反馈意见, 完善和发挥档案信息再利用的价值。

2. 文献法。

利用法律法规、期刊、图书资料、网络等对相关理论与实践研究成果进行搜集整理, 促使研究充分借鉴并且能够超越国内已有的研究, 探索出煤矿安全培训信息档案管理系统的科学性和实用性。

3. 个案研究法。对某一代表性煤矿企业及其从业人员进行安全培训追踪调查研究, 建立数据评估模型, 并对此进行定性分析。

(二) 技术路线。

系统应能实现煤矿安全生产培训档案的采集、查询、管理和数据分析功能, 符合国家和云南省煤矿安全培训管理的规定, 满足各培训机构培训工作需要, 并保证使用操作过程中的直观性、方便性、实用性和安全性。

1. 系统采用B/S架构, 可以在Intranet/Internet中运行, 系统安装部署简单, 使用方便, 只要计算机上有IE浏览器, 即可登录本系统。

2. 系统采用模块化程序设计方法, 既便于系统功能的各种组合和修改, 又便于未参与开发的技术维护人员补充、维护。

3. 系统应具备数据库维护功能, 及时根据用户需求进行数据的添加、删除、修改、备份等操作。

4. 采用高性价比和易维护的MS SQL SERVER数据库。

5. 能够自动采集ODBCORALCEDB2等主流数据库的数据。

6. 能在WINDOWS XP/WINDOWS 7/WINDOWS 8上运行。

7. 工作流过程定义和工作表单定义采用XML的过程定义语言结合关系数据库来实现。

8. 基于事故致因理论, 采用灰色——模糊——改进动量BP算法建立人的安全行为数学模型。

五、系统的构成

系统由煤矿安全培训综合类档案子系统、培训教学业务档案子系统、教学管理档案子系统、证书管理档案子系统构成。如下图1。

(一) 综合类档案子系统。

主要对国家安全培训规定、上级主管部门有关安全培训的文件、安全培训计划、安全培训机构的各种教学管理制度、规定和培训数据统计、分析

资料以及培训工作总结等进行管理。

(二) 培训教学业务档案子系统。

主要对教学计划审批表、开班通知、考勤表、教案、教学计划执行表、听课评议表、教学情况调查表、培训情况分析表、培训有效性评估表、培训质量反馈表等进行管理。

(三) 教学管理档案子系统。主要对各安全培训机构管理人员、专兼职教师和学员的档案进行管理。

(四) 证书管理档案子系统。包括信息录入、证件制作、证件修改变更、办证审批、发证登记等。

六、结语

经过多次测试, 云南煤矿安全培训电子档案系统能够达到预期的功能。该系统的研制和应用, 不仅使档案管理人员从繁重的手工操作中解脱出来进而提高了工作效率, 而且增加了数据统计、分析的方便性、及时性、准确性和可靠性, 为煤矿安全监管部门、安全培训机构和煤炭生产企业的安全生产决策提供更加科学准确的依据, 同时还满足了煤矿安全培训档案信息化的发展要求, 提升档案信息化管理水平, 通过对档案数据的科学分析和预测, 最终建立覆盖云南全省煤矿从业人员的安全行为评估模型, 做到量化分析, 科学预测, 实时预警, 彻底破解以往对煤矿安全生产中“人”的不安全因素无法科学分析和管理的难题。这在全国都有示范推广作用, 必将为云南省乃至全国煤矿安全生产的可持续发展提供有力的科学技术保障。

摘要：作为煤矿安全培训管理的重要内容之一, 培训档案管理正面临一个全新的课题。云南煤矿安全培训电子档案系统是一套涵盖煤矿安全生产培训业务流程的电子档案管理系统, 立足满足煤矿安全培训档案信息化的发展要求, 实现在安全生产决策和事故调查处理中充分发挥培训档案作用的目的。文章就该系统的研究方法、技术路线和模块功能实现做了详细的阐述。

关键词：安全培训,电子档案,管理系统

参考文献

[1]游疆来, 柏桦, 李学发.国内外档案管理信息化发展状况与趋势分析报告[R].北京, 2010.

[2]崔静, 韩海涛, 曹宇.中美高校档案信息资源开发利用比较研究[J].兰台世界, 2012 (2) .

[3]丁宝康, 董健全.数据库实用教程 (第二版) [M].北京:清华大学出版社, 2003.6.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【电子档案检索系统】相关文章：