基于Surpac的地质数据库的建立与应用

2024-08-14

基于Surpac的地质数据库的建立与应用(共7篇)

篇1:基于Surpac的地质数据库的建立与应用

基于Surpac的地质数据库的建立与应用

对澳大利亚SSI公司开发的三维可视化矿山工程软件Surpac地质数据库的功能进行了介绍,根据系统所需数据库结构,结合陕西某铅锌矿的实际情况,对该矿的地质数据库表结构进行定义,构建了地质数据库,着重介绍了地质数据库的.应用,对促进Surpac软件在我国金属矿山的应用具有重要意义.

作 者:杨文静 李利波 程天赦 Yang Wenjing Li Libo Cheng Tianshe 作者单位:天津市地质调查研究院刊 名:现代矿业英文刊名:MODERN MINING年,卷(期):25(6)分类号:P628+.4关键词:地质数据库 矿山工程软件 Surpac

篇2:基于Surpac的地质数据库的建立与应用

为了有效地解决矿山生产的动态管理,以数字矿床模型为基本方法,以Surpac软件为核心内容和基本手段,能够较好地研究该区域的区域化变量的基本特征,特别是能够通过变量的随机性来反映变量的结构性,而且它的计算还是许多其它地质统计学计算的`基础;根据对广西大厂铜坑矿区X号矿体的研究,取得的结果与实际相接近,并且对结果进行了分析.

作 者:周凯锋 秦德先 蒋素梅 胡志军 杨晓坤 ZHOU Kaifeng QIN Dexian JIANG Sumei HU Zhijun YANG Xiaokun 作者单位:周凯锋,秦德先,胡志军,杨晓坤,ZHOU Kaifeng,QIN Dexian,HU Zhijun,YANG Xiaokun(昆明理工大学莲华校区矿产地质研究所,昆明,650093)

蒋素梅,JIANG Sumei(昆明大学旅游系,昆明,650118)

篇3:基于Surpac的地质数据库的建立与应用

关键词:矿山,三维,地质模型,不确定性

1 概述

随着科学技术及计算机技术的日益发展, 应用于工业生产的三维可视化技术也日臻完善。国内外, 以三维可视化技术为支撑的软件也随之被开发。国外软件中, 以SURPAC软件应用较为广泛。

矿山三维地质模型的不确定性对矿山生产决策的正确与否有着重要的影响。正确地对矿山三维地质模型进行不确定性分析可以对其本身和在其基础上所作的决策做出科学的评价。可以看出, 矿山三维地质模型不确定性的研究对提高矿山决策水平的科学性和可靠性、建立矿山三维地质模型的不确定性的数学模型和评价体系等方面无疑具有重要的理论意义和实际应用价值。

2 矿山三维地质模型不确定性产生原因

矿山三维地质模型是众多空间离散数据在一定建模方法下形成的空间形态, 其不确定性产生的原因主要来源于矿山原始数据的不确定性及建模方法导致的不确定性。以下通过对SURPAC软件建模过程的介绍来阐述矿山地质模型不确定性产生的原因。

2.1 SURPAC地质模型的建立

通过对已有的矿山基础数据进行整理, 形成可应用于SURPAC软件建模的基础数据类型。将整理后的地质数据导入到软件地质数据库中, 形成孔位表、孔斜表岩性表等。通过提取地质表中数据, 分别提取每个钻孔中各地质层的三维坐标, 再通过估值形成各地质层DTM面。

2.2 矿山三维地质模型不确定性产生原因

矿山工程软件对数据的估值及模型建立的方法基本相同, 故由上述SURPAC软件的建立过程可以看出, 矿山三维地质模型不确定性产生的原因主要有以下几个方面。

2.2.1 建模原始数据的不确定性。

矿山三维地质模型建模的原始数据主要是钻孔成果数据和其它成果数据, 建模原始数据的不确定性主要来自位置不确定性和属性不确定性。

2.2.2 研究建模方法产生的不确定性。

矿山三维地质模型在有限的数据下必须经过插值才能近似地描述矿床, 由于插值方法的精度有限, 插值方法也将产生不确定性, 进而导致矿山三维地质模型的不确定性。

3 矿山三维地质模型不确定性解决方案、技术浅析

针对矿山地质模型不确定性产生的主要原因, 可通过不确定性理论方法建立原始数据不确定性数学模型来解决建模原始数据不确定性问题;通过理论分析和实验相结合的方法来解决建模方法导致的不确定性问题。

3.1 解决方案浅析

(1) 通过对矿山三维地质模型建立所需的原始数据采集、分析和表达传递等过程的分析, 确定原始数据位置及属性不确定性产生的来源, 采用目标模型、概率论及数理统计方法和云理论等理论方法建立原始数据的位置不确定性模型和属性不确定性模型。 (2) 对矿山三维地质模型不确定性采用理论分析和实验相结合的方法进行研究。首先从理论上分析各种不同插值方法的精准度, 确定形成不同插值结果时应选用的建模方法, 实现对建模方法的不确定性的定量描述。 (3) 矿山三维地质模型的不确定性由原始数据的不确定性和建模方法的不确定性组成, 通过对原始数据的不确定性和建模方法的不确定性进行叠置分析, 可以建立矿山三维地质模型的不确定性数学模型, 并通过矿山的实际数据建立矿床地质模型, 在矿山的生产设计中对矿山三维地质模型的不确定性进行验证。

3.2 解决技术浅析

针对导致矿山三维地质模型不确定性产生的原始数据的不确定性和建模方法的不确定问题, 可以通过矿山空间数据集成、数据挖掘技术和矿山三维地质模型建模方法的优化来改善。

3.2.1 矿山空间数据集成和数据挖掘

矿山的基础数据为地质勘探活动形成的最基本的数据, 既原始数据。通过对原始数据的分析和整理形成了地质勘探的成果数据。由成果数据通过软件进行估值, 衍生出了生成数据。以上三者之间有着较为密切的联系。可以通过对这三类数据之间的数据流进行分析, 得出它们相互间的内在联系。

根据矿山空间数据的特点, 采用不同的数据挖掘方法, 可分别实现对钻孔数据、煤岩参数和测量数据的数据挖掘。根据空间数据的方向变化能够产生聚类这一特点, 可以采用基于方向的空间数据聚类方法, 设计和实现方向聚类算法, 并用实验数据对算法进行验证。

3.2.2 矿山地质模型建模方法

根据采用的技术不同, 建模方式有多种, 下面主要介绍三种建模方法。

(1) 基于裁剪曲面的矿床表面模型建模方法使用加权最小二乘拟合法对煤层顶底板表面进行拟合, 建立用四边形表示的煤层顶底板曲面, 然后使用各种地质构造对煤层顶底板曲面进行裁剪, 最终得到了基于四边形裁剪曲面的矿床地质模型, 如图1所示。 (2) 基于三角面的矿床表面模型建模方法在矿床建模时, 以矿体的顶底板等高线为原始数据, 矿山地表和矿体表面均采用约束三角剖分建立矿床地质模型。先分别对各地质层面进行三角剖分, 对各层面集成后形成整个矿山表面模型。如图2所示, 为SURPAC生成的DTM面及三角网。 (3) 基于不规则四面体的三维实体建模方法具有很多优点, 但其缺乏界面性。不规则四面体模型以四面体作为基本体元来描述对象, 各个四面体相互连接但不重叠, 通过四面体间的邻接关系来反映空间实体间的拓扑关系, 这些四面体的集合就是对原三维物体的逼近, 经常用来刻画空间复杂的不规则物体。在采用该方法时, 为避免其缺乏界面性的缺点, 首先应对矿体的等高线进行离散化, 再对依据各地学分层属性划分的离散点进行不规则四面体剖分, 最后完成矿山三维地质模型的建立。

针对单一矿山空间数据模型的不足, 可对由等高线模型、基于约束三角剖分的表面模型和基于不规则四面体的实体模型进行集成, 进而实现对矿山空间数据模型的集成管理。对原始数据、成果数据、生成数据和矿山空间数据模型四者相互间的数据流进行分析, 得出各类矿山空间数据间的内在联系, 实现对矿山三维空间数据的集成。

4 结束语

三维可视化技术应用于矿山地质建模可对煤层赋存状态、空间特性进行有效的显示, 但由于原始数据位置及属性的不确定性及建模方法导致的不确定性直接造成了矿山三维地质模型的不确定性, 而矿山三维地质模型的不确定性对矿山生产决策的正确与否有着重要的影响。因此, 矿山三维地质模型的不确定性的数学模型和评价体系等方面无疑具有重要的理论意义和实际应用价值, 应进行进一步深入研究。

参考文献

[1]王志宏, 陈应显.露天矿矿床三维建模技术及可视化研究[J].辽宁工程技术大学学报:自然科学版, 2004, 23 (2) :145-148.

篇4:基于Surpac的地质数据库的建立与应用

【关键词】地质资料管理系统;数据库;全文检索

一、引言

在地质勘探和相关科研生产中,会产生大量的地质资料,包括、图片资料、文字报告、图表、图像、影音等数据,这些资料的记录对地质勘探的深入研究发挥巨大的作用。地质资料不断增加,面对庞大的数据资料,必须建立科学、完善的数据库管理体系,对地质资料进行科学化管理,提高数据在科研工作中的调用率,充分发挥记录地质资料的价值。将地质资料整合的统一的数据库管理系统中,建立科学化的目录库和电子文档库,与全文数据检索相结合,提供智能检索功能,为科研工作提供信息数据保障。

二、地质资料管理系统

本系统根据地质管理机关要求,模拟地质馆藏模式,建立科学、完善、信息化的地质资料管理体系,实现信息管理自动化,构建科学完善的信息化管理平台,进一步的提高地质信息管理水平,更好的服务于地质科研工作。

(一)汇交管理子系统

汇交地质数据采集:按照相关规定,采用一种或多种形式,将勘探管理系统、地质管理系统、科研管理相同、地质调查管理系统等资料整合,进行资料汇交管理。并且具有录入、修改、输入、输出、查找等功能。

汇交时间预报与工作提示:系统根据用户设置,预报资料汇交时间,当临近汇交时间时,系统会提示管理人员,督促管理人员及时完成制定的汇交工作,避免管理人员的疏忽导致的汇交延误。

资料汇交登记与证书管理:汇交人员数据登记,资料验收记录,发放汇交证书,打印汇交证书等。

管理信息整合发布:技术、法规、工作规范,资料管理政策、汇交记录、催交通知、统计资料等。

(二)目录数据管理子系统

主要工作内容有:对地质资料进行目录信息的建设、管理和维护,对成果地质资料的录入校验与查询,提供科学、规程化的目录检索功能。

主要功能包括:目录数据资料录入、修改和维护;系统访问身份校验;目录更新发布确认;目录检索查询;检索结果输出;其他数据登记与统计。

(三)馆藏机构管理子系统

主要包括馆藏机构设置,人员安排、设施管理、资料递增情况、保存现状、开发与利用。

(四)地质资料管理软件系统

总体框架:软件采用目前先进的Microsoft.NET技术,与B/S和C/S架构相结合,利用企业级n层结构进行划分,在高效性、稳定性、灵活性等方面都表现十分出色。

B/S是Brower/Server的缩写,用户可以通过客户端与数据库进行交互,操作十分简单,用户只需要在客户机上安装一个浏览器,如Internet Explorer,我们在服务器上预先安装SQL Server或Oracle、Sybase 等数据库。此时,浏览器即可通过Web Server与数据库进行数据交互。

B/S优点在于,操作简单,不需要安装特定的软件,一台能够上网浏览网页的电脑,即可进行数据交互,更是删除掉了客户端维护的环节。系统扩展方式简单,只要能上网,通过管理员权限下发用户名和密码,便可以使用了。

C/S又称Client/Server或客户/服务器模式。与B/S工作方式相比,C/S需要采用高性能PC或工作站。用户需要安装特定的客户端软件。

C/S优点在于,发挥计算机强大的数据处理功能,一些繁琐的工作可以通过客户端进行处理,整理好数据后传送给数据库。客户端响应速度快。

三、TRS全文数据检索软件

经过上述分析可知,系统数据库内容包括:汇交管理、目录数据管理、馆藏资料数据等。

系统数据库涉及的资料规模庞大,由于功能需求,不能单纯依赖于一种关系数据库。很多企业用Oracle数据库用来做资料目录数据管理,但Oracle数据库在资料检索功能方面不是很强。因此,为了提高地质资料的全文管理功能和数据检索能力,选择一种全文数据库十分重要。

TRS全文数据库包括TRS DataBase Server,TRS Admin,TRS GateWay及TRS 全文数据库开发接口等,主要功能有:全文数据存储、全文数据管理及关系数据库的数据接口、数据发布等。TRS在处理输出结果方面,可按字段值或相关度进行排列,还可以按照多字段关联排序,并且支持检索结果分类功能。

TRS Gateway是目前市场上主流关系数据库全文检索,并且引进了数据库查询加速技术,能够充分实现双向数据共享,关系数据库和TRS全文数据库之间的一切数据之间的数据迁移。并且可以通过TRS网关无缝集成TRS全文数据库和关系数据库,使用户在同一个系统中两个享有良好的关系数据库事务处理和结构化数据管理功能,而且还具有非结构化内容强大的管理和检索。

TRS API.NET应用开发接口是一套通用的编程接口,在Visual C++.Net、Visual Basic.Net、Visual C#、WEB开发环境下为TRS Server开发访问界面。TRS API.NET封装检测结果和网络通信等环节,在系统开发环境与TRS数据库之间建立联系,编程人员通过TRS API.NET,完成全文检索、Web应用界面展示、系统集成、事件处理、结果返库等功能。

四、系统检索功能应用

(一)检索功能设计

各级科研管理人员访问地质资料库时,根据各部门需求的不同,资料库可以提供多种查询方式。本系统设计检索方式如下:

1.目录搜索

利用Oracle资料库强大的资料目录管理功能进行目录搜索。对资料目录进行模糊搜索、组合查询。用户根据资料目录和摘要等主要信息,确定并选择自己所需要的资料,系统通过授权,提供资料正文连接,从而查询到原文信息。

2.全文搜索

利用TRS全文数据库强大的全文检索功能。系统根据用户输入的关键词、关键句或文章片段,检索全文中与之匹配的文档,并提供按匹配度排序等功能。系统通过授权,提供资料正文连接,从而查询到原文信息。

3.图片搜索

搜索数据库中相关图片信息。系统提供两种搜索方式,一种是Oracle目录资料库图片格式类型检索,一种是TRS全文数据库图片类型检索。

(二)系统查询功能实现

全文搜索与图片搜索的流程基本相同。系统根据用户在查询初始页面输入的查询语句,生成系统查询条件,利用Session传输到结果,TRS API.NET应用开发接口在初始化页面中进行全文检索,TRS全文数据库完成连接、登陆、查询结果等。筛选出符合查询条件的结果,集中展示在结果页面中。

五、结论与分析

地质资料是国家重要的档案资料组成部分,是国家的宝贵财富。地质资料管理软件根据地质资料的复杂特性,选择Oracle数据库与TRS全文数据相结合的形式,充分发挥两个数据库自身强大功能,安全有效的存储地质资料数据,使其与勘探开发数据库相结合。提供了基于关系数据库的目录检索、全文检索和图片检索等功能,补充并增强了系统的全文数据管理功能。高效的系统运行能力,为地质资料管理人员降低了工作量,为广大科研人员提供了强有力的技术保障,是地质科研工作科学的信息化管理平台。

参考文献:

[1]王波,李娜. 基于ArcGIS的地质资料管理与应用系统的设计与实现[J]. 测绘与空间地理信息,2013,05:108-110.

[2]曾庆飞. 基于WebGIS的地质资料集成管理与应用服务系统设计[J]. 计算机与网络,2015,11:66-67+75.

[3]刘忠明,张娅,韩培光,姚燕,李伟东,倪宇飞,徐旭东,赵婷. 地质资料管理服务向市县延伸浅析——以湖北省黄石市为例[J]. 资源环境与工程,2015,S1:73-78.

篇5:试论如何建立工程地质钻孔数据库

关键词:工程地质 钻孔数据 数据库 地层

0 引言

地质勘察数据地域性强、种类繁杂、输入输出量大、加工处理十分复杂,其中土层的钻孔数据是最重要的资料,这种资料更原始、量更大、更具特点,处理起来也更复杂。怎样对这些资料进行有效、规范的管理,到目前为止,还没有一种公认的针对地质钻孔信息的数据库结构应用于实践。本文引入了内外两级数据库优化映射的思想和一种新颖的地质“块—层”结构,并在此基础上开发了地质信息管理系统,对地质勘察信息特别是钻孔资料信息进行科学有效的管理,并对一个工程实例进行了地层情况的插值模拟。这样不但能够积累工程经验,对后续工程的设计施工提供指导,而且可以为城市规划等宏观决策提供借鉴。

1 内外两级地层数据库

工程地质勘察数据是人们对地球表层岩土分布情况的记录,包含了地层的众多信息。受两方面因素的影响:一是地壳运动和周围环境的原始构造运动,二是人类工程活动引起的施工扰动,这就造成了地层结构复杂多变,地层翻转、缺失时有发生。要把这些浩如烟海、多源异构的数据建库,用数字化的方法直观地展现出来,采用单一而简单的地层数据模型显然不能满足需要。尤其在大型工程中,大范围地揭露土体,土层较多、土体类型变化复杂时更是如此。用户编辑信息时使用的数据库繁杂,计算机内部处理系统使用的数据库要求结构规范化,这两者之间就形成了矛盾。本文提出的用户数据库和系统数据库的两级映射技术可以很好地解决这个矛盾。

1.1 用户数据库 这个数据库是一级数据库,面向用户,适应用户的使用习惯和需要,包容性比较强,它的结构可以比较松散,和钻孔勘察的记录数据差不多,有点号、平面位置、标高、各个土层类型和厚度等信息。用户可以在这个数据库里以区域为单位导入导出数据、修改编辑数据、查询数据、生成和浏览各种报表图表。采用对象嵌入技术还可以实现图形(主要是地图)和数据的超链接。

1.2 系统数据库 这个数据库是二级数据库,应用于系统内部的数据处理,由一级数据库优化映射得到,各个钻孔的信息具有规范统一的数据模型,即下面要介绍的地质“块—层”结构。这就克服了用户数据库结构松散、数据冗余的缺点,同时适应内部管理数据的要求。

1.3 区域地层层序优化技术 用户通过一级数据库输入某一区域的地质钻孔数据。但是实际应用中地质情况是复杂多变的,各个钻孔所揭露地层的层数、层序都不会完全一致,需要再经过一个“优化”的过程,得到针对这一区域的“优化地层层序”。“优化地层层序”包含了该区域所有钻孔揭露出的各种类型的土层,并以一种“优化”的顺序排列起来,目的是着眼于区域中大多数钻孔的地质情况来组织系统数据库。例如某种类型的土层在大多数钻孔中都处于靠近地面的上层,那么它在“优化地层层序”中的位置也相对靠上;某种类型的土层只在极少数钻孔中才出现,就可以规定一个阙值,小于这个值时这种土层在“优化地层层序”中就被忽略了,或者与临近土层合并。当然,这些“优化”的方法也可以由用户选择使用。如果把优化规则定义为:给钻孔的不同位置赋予不同的数值,从上到下依次递增,和地面最接近定义为第1层,最远离为最后一层,以此类推。

1.4 两级数据库映射技术 得到“优化地层层序”后,就以此为基础,联系下面要提到的“块—层“结构模型组建系统数据库。因为经过了优化,系统数据库的结构紧凑规范,为特定区域专用,方便了后续的数据处理工作。由用户数据库可以映射到唯一的系统数据库。同样,由系统数据库也可以唯一映射回用户数据库。在一个数据库中所做的修改可以迅速地反映到另一个数据库中。从本质上说,这两个数据库是对同一个客观事物用不同结构进行的抽象和反映。应该强调的是,用户只能操纵用户数据库,系统数据库对用户来说是不可见的。

2 地质“块—层”结构模型

用户数据库优化之后仍有一些问题不能解决,各钻孔怎样利用“优化地层层序”来表达自身的地层层序呢?这就要用到地质“块—层”结构模型。这种结构模型把“优化地层层序”作为一个基本块,这个基本块重复出现。即各个地层组成基本块,各个基本块组成钻孔模型。各钻孔的土层情况与基本块比较,顺序相同的依次填入数据,有土层翻转的就增加一个基本块再填入,有土层缺失的就填0。数个基本块连接成钻孔的土层结构,形成一种灵活的、可伸缩的数据模型。

3 地质勘察数据库的数据处理

数据建库的根本目的是为了高效、合理、科学、规范地管理和处理数据。现在有关地质实体的研究多着眼于三维地层建模,体现在两方面:一是适应于地层模拟的空间数据模型研究;二是三维地层建模的具体实现方法。综合考察现有的各种地层模拟方案发现:多数方法的建模过程都比较复杂烦琐,而且最终成果往往是形态构造和直观形象,缺少具体的数值结果和量化指标,可利用性不强。针对这些缺陷,本文提出的地质数据库处理系统不但能够向用户提供以查询结果为基础的报表、平面图、剖面图、压缩特性曲线图和土工实验表等可视化效果,更重要的是它可以把钻孔的地层信息量化地提供给用户。由于工程钻探的高成本和自然条件的约束,在一个特定的研究区域中,往往只能获取有限数目的钻孔数据,那么没有钻孔资料的点位怎么办?在系统数据库中,各钻孔的地质信息有形式上一致的结构,可以使用比较成熟的技术,利用各钻孔点的平面坐标构建整个区域的点位拓扑关系,如构建Delaunay三角网。再根据拓扑关系选择一些已勘探点来模拟插值未知点的地层信息。

4 结语

4.1 要把繁杂的钻孔地层信息建立数据库,进行科学有效的管理,前提是要建立一个操作性强、统一规范的数据模型。地层“块—层”结构就能够比较完美地解决地层层序中的大多数异常问题,如地层翻转、缺失等。但对于在同一钻孔中重复出现的地层只能舍弃,认为它只出现一次。虽然实践中重复出现同一地层的现象不太常见,但是这也是这种结构的不足之处,建议进行更深一步的研究。

4.2 要由钻孔信息的原始数据建立地层信息数据库,就要先由用户数据库优化出区域的“优化地层层序”,建立各个钻孔的地质“块—层”结构,再建立起适用于信息处理要求的系统数据库。以此为基础开发出的工程地质勘察信息处理系统可以为工程建筑设计部门和城市规划部门的计划、决策提供数据服务。

参考文献:

[1]程朋根,龚健雅.地勘工程3维空间数据模型及其数据结构设计[J]. 测绘学报.2001.30(1):74 81.

篇6:基于Surpac的地质数据库的建立与应用

关键词:高校图书馆流通统计采访质量评价体系

中图分类号: G253.1 文献标识码: A 文章编号: 1003-6938(2012)02-0104-04

To Establish a Quality Assessment System of Books Based on the Circulation Data

Abstract Based on the analysis of the utilization of Chinese books, especially new books, this paper proposes to build a book interview quality evaluation system according to these aspects: interview team, the quality of personnel, circulation data, and the bookseller rating, which can improve the quality of interview.

Keywords university library; circulation statistics; interviewed quality; evaluation system

长期以来,高校图书馆一方面受书价不断上涨和图书经费投入不足的困扰,另一方面现有馆藏图书利用率不高,造成购书经费浪费严重,投入和产出不协调的矛盾在目前图书馆中普遍存在,如何化解矛盾,提高入藏图书的利用率,进而提高图书经费的产出效能,使经费效用极大化,是图书馆最终要解决好的一大问题。本文以苏州科技学院图书馆(以下简称我馆)为例,在统计分析馆藏及每年新书流通利用的基础上,建立图书采访质量评价体系,完善采访流程,提高采访质量。

12003~2010年图书流通数据分析

流通统计是对图书馆文献流通的各项指标及其相互关系进行的统计,包括流通量统计、图书周转率统计、图书拒借率统计、图书利用率统计、图书满足率统计等,是了解和分析读者利用本馆藏书状况的具体依据[1]。表1是对我馆自2003年来的8年中文图书流通数据进行的统计分析,较为客观地反映了馆藏图书利用率及每年新书的采购质量,为图书采访质量评价体系的建立提供依据。

当同一册图书借阅次数多于一次时,仍计为一册,流通量即指定时间段内文献借阅的册数,我馆从2003年来的8年中,平均馆藏年增加10万册,而图书借阅量却不断下降,对纸质图书来说是个十分危险的信号,出现了藏书成分欠佳的状况,对一般高校而言纸质图书经费仍占总经费的绝大部分,投入大,但利用率在不断下降,投入和产出的矛盾日益突出,解决问题的切入点在采访。表1反映出前5年图书流通量还能相对稳定在40万册以上,其中2005年流通量最高,主要原因是本科评估前采购的新书较多,2008年来的近三年流通借阅量下降明显,已连续两年跌至30万册以下,总体馆藏图书利用率偏低。

从8年的流通量统计中可以可以看出,每年流通量前5位图书大类的位次稳定性强(见表2),基本没有变化,说明我校读者的借阅倾向趋于稳定,占总借阅量的71.37%。文学(I)类图书借阅量高居榜首,占总借阅量的29.15%,是高校图书流通中的普遍现象,符合青年学生既重文学名著阅读,增强人文素养,又能休闲阅读,放松心情的心理。另外,我校传统的中文、历史等文科专业,文学类是其中的专业课程,加上文学类具有雅俗共赏的特征,共享性广,通用性强,所以,文学类图书的流通量大也就不难理解了。工业技术(T)类图书,实用性强,其中的计算机等级考试(TP3)类和语言文字(H)类中的英语四、六级图书是学生必用的考试参考书,因而这两类绝对是热门图书,借阅靠前。数理科学和化学(O)类图书是理工类大学生的基础学科,拥有较广的固定用户群,借阅量排行第四也在情理之中。历史、地理(K)类图书借阅量位居第5,源于我校仍有历史这一老牌传统专业,加上有一定量的爱好历史史料的读者,借阅量也就相对较大。再者,流通量前5位的图书大类的利用率还是存在明显差别,排前3位的I、T、H三类图书,由于对学校大学生均为适用,读者群大,在实际流通中占有绝对量,为61.1%,而O类和K类图书较前面三类图书的适用性弱,占总流通量的百分比小一些。前5位中人文类占60%,理工类图书占40%,考虑I类图书对文理科学生具有广泛的可读性、适用性、共享性因素,形成了流通量居前5位文理类图书的利用比接近1:1,上表反映了我校学生对这5类图书的需求较旺,认可度高。我馆8年的图书流通数据,流通量前5的图书占总流通量的71.37%,已满足了全校极大部分读者的文献需求,基本印证了“二八定律”[2]。

上述5类图书与我校专业关联度差,没有相关专业,每年仅占流通总量的0.53%,借阅量非常小,此5类的图书利用率极低,需要说明的是,航空、航天(V)类图书由于每年的借阅量仅为十余册次,与全年总流通册次的占比在小数点保留两位时为0.00%,表明V类图书实际流通量太小,已到可忽略的程度,因此,在分析流通数据的基础上,图书采访应及时作出调整,减少上述5类图书的采购数量,遵循文献采集最大效用原则,把经费转移到利用率高和新专业文献的建设上去,避免经费人为浪费,对接近零借阅的V类图书,采访上更应作出较大调整,大幅减少采购。

2新书在当年及后来几年中的利用率统计分析

新书借阅情况是最能反映某一阶段图书采访质量,反映所采图书是否符合读者的需求。从表4中可以看出:

2.1 新书进入流通后在次年利用率最高

新书次年利用率比当年平均提高4-5个百分点,说明新书进入流通后的第二年被充分利用,原因之一是在一年中新书不断按批次进入流通,并非一次性入藏,在下半年入藏的新书由于离年底较近,与读者接触的时间短,有的新书可能进入流通不到一月就开始统计一年的借阅情况,故当年不能完整反映新书的利用率,所以新书在次年的流通利用率均比当年高。

2.2 新书进入流通后利用率总体呈下降趋势

新书只在第二年中利用率都提高,且达到最大值,从第三年开始逐年递减,且有的降幅较大,如2003年新书在2005年的利用率比2004年下降10.78%,2004年进入流通的新书利用率情况也类似,且利用率的绝对值也在逐年下降。

2.3 新书利用率低,采购质量有待提高

从8年新书利用情况数据统计中清楚地表明,新书利用率最高值42.04%,说明四成新书进馆后被读者利用过,还有近六成的图书很少或根本无人利用,超过一半的新书利用率极低而造成严重浪费,并且从表中看出,每年新书的利用率一直在下降,经费投入逐年增长,但利用率反而逐年下降,投入与产出的矛盾突出越发明显。如2009年和2010年采购的新书当年利用率比2003年和2004年新书利用率降幅达一半以上。随着时间的推移,文献老化逐年显现,2003年进馆的图书在8年后的2010年中利用率仅为7.43%,上述现象应引起图书馆领导和采访人员的重视,找出原因,调整采访策略。

2.4零利用率或接近于零的新书的借阅分析

通过对2006年和2007年采购的18册和25册V类新书利用率跟踪统计(见表5),发现2006年采购的18册V类新书在5年中只被借阅过一册,总体利用率为零,2007年采购了25册V类新书,在4年中被借阅过3册,利用率也接近于零,对于此类利用率为零或接近于零的大类图书,是我们采访中应该充分关注的一个部分,V类图书是有关航空、航天方面的知识内容,专业性较强,我校没有相关专业,此类图书的利用几乎为零也就不足为奇,采访中减少对V类图书的采购,不会影响本校读者的需求,万一读者对V类知识的少量了解和需求,可通过网络或区域内资源共享来解决。

采访部门要对新书利用情况进行定期统计分析,对类似上述图书进行排查,了解原因,调整采购方向,通过建立文献采购质量评价体系,有效避免经费的浪费,强化纸质文献采访的针对性,提高图书馆藏质量。

3纸质文献采访质量评价体系的建立

读者是图书馆馆藏质量高低的直接检验者,流通部门的流通数据是图书采访效果的最直观反映,文献采访人员的业务素质是把好采访关的保证,图书中标书商的综合实力决定了文献供货的能力和质量,以上几大方面的合力共同构筑图书采访质量的关键要素,在图书采访实践中,建立文献采访质量评价体系是提高纸质文献馆藏质量的保证,其评价体系主要包括以下几个方面:

3.1 组建三级图书采访队伍

学校、图书馆、系部的领导对图书馆的重视程度直接决定了图书馆的建设和发展,图书馆文献建设需要方方面面的支持。建立主管图书馆的校领导、图书馆及各院系专业教师为成员的三级采访队伍,尤其是院系一级的专业教师一定要参与相应专业图书文献的采访工作,这是保证文献采访与学校学科专业相匹配的重要因素。同时,主管采访工作的馆领导经常参与图书的采购工作,制订完整的采访规章制度,组织采访人员参观学习,定期或不定期进行采访工作业务研讨,把在采访中遇到的问题进行集体分析、讨论,找出解决办法。

3.2 解析流通数据,重视读者图书预约信息的分类统计工作

图书质量优劣最后还是读者说了算,新书利用率的高低是判断近期采访效果的最重要指标,包括新书在当年和后几年中的利用率的统计分析,采访人员要密切关注利用率排在中等偏下,尤其倒数几位的图书大类,是否出现相当一段时间内新书零借阅的状况,必要时对利用率极低的具体图书进行跟踪采样,找出问题的原因,分析这些图书分别来自哪些供货商,与他们进行沟通,提出供货和采购方面的意见。

读者图书预约信息反映了读者对某类图书的直接需求,是采访与读者需求沟通的渠道之一,现有的图书管理系统均有读者图书预约功能,当某一图书所有复本已被全部借出后,读者可利用图书预约功能进行预约登记,以便在第一时间内借到读者还来的这本图书。预约信息真实反映读者对某种图书的实际需求,反映哪些图书是读者需求较多的,采访人员对预约图书进行分类统计,了解读者的图书需求和哪些图书的馆藏不足,提示需要补充什么样的图书,使文献采购更具针对性。

3.3 建立书商信用评级机制,确立长期合作的图书供应商

(1)书商的服务周全度、信誉度。态度决定一切,周到的服务,能全方位满足高校图书馆的图书需求,书商会主动为图书馆考虑藏书特点,有意识地系统供应相关图书,针对性强,保证专业图书的覆盖面,全面发挥书商的主观能动性。信誉度包括及时供应合格图书,拒绝伪劣产品,完全按照合同安装指定规格的防盗磁条等,保证初加工的质量。

(2)供货力和书目数据的完整度。年中和年末分析中标书商的到货率,书目清单的可选量,实际发生的采购份额,所提供的书目数据的标准化程度及完整度,一年中能够提供现采的条件和次数等供货能力。

(3)书商与本馆藏书建设方向吻合度、紧密度、关联度和对馆藏的贡献度。每个书商都有他的货源品种特色,例如主要侧重于几类学科的文献供给,所以,采访中要对每一个中标书商进行特色分析,在书商与本馆藏书建设方向上的吻合程度,紧密程度和关联程度方面重点考量,得出该书商对馆藏建设的贡献力度。

(4)定期对书商提供的图书进行流通数据分析。从新书进入流通后的一定时期内的借阅情况进行数据分析,根据工作需要,追溯到该图书来源于哪个书商,可采用抽样统计分析等方法,评判中标书商提供文献的针对性的强弱,实际利用率的高低,用事实数据证明书商对本馆的作用大小,另外要注意中标书商供应的图书在零借阅图书统计中的占比情况、出现的频度,以便及时发现问题,与供货书商进行沟通解决。

(5)建立中标书商信用等级,遴选核心供货商。设置评定信用等级的指标,赋予相应分值,根据书商近几年供货等综合情况,得出书商相应信用等级,在此基础上遴选本馆文献建设的核心供货商,建立长期合作关系,给予相应的政策倾斜,提高馆藏质量。

3.4 采访人员业务素质考评

采访人员的业务素质也是文献采购质量评价体系中的重要组成部分,他们是文献建设的CEO,所有文献都由采访人员把关入馆,其业务水平的高低直接影响采访的质量。

(1)采访人员按中标书商来分,即1人负责某个或几个书商,便于对口管理,在此基础上适当进行抽检每个采访人员所采图书在流通中的实际利用效果,发现问题,及时提出并解决。

(2)采访人员每年参与中标书商组织的现采次数等情况考评,与订单式采购相比,现采工作要辛苦得多,但现场选书针对性更强,文献建设质量有较好的保证。

(3)每年对采访人员进行业务素质理论考核,促使采访人员主动学习、关心、了解图书出版和图书馆发展动态,拓宽采访工作思路。

文献采访是个系统工程,涉及方方面面的工作,除图书馆自身外,还要从出版社、发行商、图书中标书商等环节完善采访流程,要充分利用流通数据,进行科学分析,通过建立图书采访质量评价体系,使得高校图书馆采访有章可循,有据可依,保证采访质量。

参考文献:

[1]黄方正,王可权.图书馆管理词典[M].北京:知识出版社,1994:457.

[2]孙书霞.基于数据分析的中文图书采访工作优化[J].图书馆建设,2010,(12):37-39.

篇7:基于Surpac的地质数据库的建立与应用

关键词:海量数据;多数据库;表分区;分表技术

中图分类号:TP311.131文献标识码:A文章编号:1007-9599 (2010) 14-0000-03

Massive Data Query Optimization Research and Application Based on Data Partition

Jia Junkai1,Xu Hui1,Gu Guoqiang1、2

(1.Donghua University,School of Computer Science,Shanghai200051,China;2.Shanghai Triman Informatin&Technology Co.,Ltd.,Shanghai200051,China)

Abstract:The low efficiency of massive data data query,comparison and analysis of a variety of massive data query optimization solutions,advantages and disadvantages,division massive data based on data query performance optimization.The method uses multi-database processing,table partitioning,sub-table technology will be in three dimensions the data stored in the data division,reducing the size of massive data queries.After large-scale experiments that the method improves the efficiency of massive data queries.

Keywords:Massive data;Multi-database;Table partition;Points table technology

在面对海量数据时,用户关心的是如何从其中查询出对自己有价值的信息而非海量数据本身,如何使查询海量数据的性能更为高效是目前国内外数据库系统研究的热点问题。

在海量数据查询优化策略有:一:代数优化;它对查询语句进行变换以减少语句执行开销[1]。二:规则优化;它是根据启发式规则选择执行策略[2]。两种方法的不足表现在:当数据量规模超出系统软硬件处理能力时,通过优化语句很难提升查询性能。三:物理优化;它是选择合适的存储策略进行的优化,但是在对语句的执行效率考虑不足。四:代价估算优化。它是对已经存的优化策略进行代价估算,选择最小的执行代价策略[3]。不足:计算最小执行代价耗费时间过多且实用性不高。

目前的海量数据查询性能低下大都是由于数据的规模超出系统的软硬件处理能力。本文利用多数据库中间件插件技术在存储海量数据时将数据划分存储到多个自治的数据库中,在一维上降低数据规模并优化查询语句;在本地数据库中运用表分区技术,将海量数据划分存储到多个表分区中,在二维上降低海量数据的规模;利用分表措施将分区表分成多个子表,再次降低海量数据的规模。通过对海量数据的三维划分、优化查询语句以及降低数据的扫描规模提高了海量数据的查询性能。

一、数据划分

数据划分是指按照某种规则将数据分布到特定范围内,使得在对数据进行查询时系统并行处理能力提高,以此降低查询的响应时间,提高数据库的查询性能。数据划分对于能否充分利用系统的cpu和带宽资源,减少通信开销,平衡系统负载和减少计算量,最佳的发挥并行性和系统性能至关重要[4]。

(一)多数据库并行处理技术

多数据库并行处理技术是以中间件为技术支撑,对海量数据进行合理存储,高效查询的一种技术。多数据库并行处理结构如图a所示:

当用户提出加载请求时,通过负载均衡系统将请求均衡的分发给并行加载服务,并行加载服务首先读取全局数据字典中的元数据,通过数据划分器和表加载器将数据加载到底层数据库中,当用户提出的查询服务时,系统将请求发给并行查询服务,并行查询服务首先读取全局数据字典用于获得多数据库的配置信息,然后通过查询语句改写服务优化查询语句并发送给查询服务器,用以完成数据的查询功能。

多数据库并行查询技术通过中间层组件对查询语句进行分析、优化,根据分析的结果将查询分解或者复制为多个等价的子查询,将多个子查询语句在相应的数据库节点上执行,它降低了每个本地数据库的查询规模,并实现查询的本地化并行查询,提高了数据的查询效率。

(二)表分区

针对底层数据库数据查询规模大的问题,对其特定业务的查询条件属性做表分区,以提高查询的性能。图b为根据时间将底层数据库中的数据进行表分区的示意图。

由图可知,经表分区后,数据在数据库中按一定的规律存放。当进行数据查询时,系统只需扫描存放数据的响应表分区,因而查询扫描规模可以大大降低,数据查询性能也会得到相应的提高。

当分区的规模较大时,在海量数据库中无法有效降低数据规模,这样的数据划分无意义;当用户分区规模较小时,在进行多数据查询时,会涉及到多个表分区,查询性能也难以提高。因此表分区的粒度需要优先考虑两方面:一是数据的存储规模;二是用户的查询粒度。

(三)分表技术

1.原理。

在分区表的基础上,将表根据所查找的属性字段划分成为多个子表,利用数据库的Union ALL视图将需要查询的子表动态的合并起来,使对原表的查询转化为对视图或者子表的查询,以此降低数据查询的扫描规模。

2.算法。

输入:业务层提交给中间层的查询语句;

输出:语句改写后的查询语句;

流程:

(1)将业务层提交的查询语句提交给语法分析器;通过语法分析器截取where子句后的条件表达式。

(2)分析条件表达式中是否含有与分表字段有关的条件。当不包含分表字段时返回原语句,算法结束;否则提取该字段。

(3)根据提取的字段分析其涉及到的数据范围,找到相对应的视图或者子表。

(4)将原语句中from子句后的原表改为3得到的视图或者子表,此时得到查询语句a。

(5)去除a中与分表有关字段的条件,返回改写后的查询语句,算法结束。

二、数据划分性能分析

(一)数据库级别的数据划分

通过中间件,将复杂查询语句转化为简单查询,将的串行查询改为在各个本地库上的并行查询。如果将数据分布到各个数据库中,此时需要的网络和磁盘I/O开销会非常的大,通过中间组件服务在数据加载时预先进行数据布局,在对大规模的数据进行处理的时候,不需要将中间结果在局部数据库之间的网络上进行传输,可以极大提高并行处理的性能。

(二)数据库表级别的数据划分

为更好的分析数据划分对查询性能的作用,建立以下场景:设有结构为TB{RID,CSDZ,XZDZ,CJSJ,NRXX}的表,RID为主键,CSDZ和XZDZ为二维空间属性,其各自的值域为0-31,CJSJ为时间属性,NRXX为内容信息属性。

通过表分区的方式将其按照时间来进行数据划分。由于数据量大并且查询针对小时范围较为频繁,选取按小时对海量数据进行表分区。

不考虑物理存储的条件下:

假设a查询扫描同等数据规模所花费的时间相同。

假设b查询的响应时间仅仅考虑数据的扫描时间。

假设c查询数据划分的各部分时能充分并行。

对于基于表分区的数据划分:

查询时间间隔为n小时的数据时,理想条件下,数据被平均的分成24分,这样查询扫描的数据在规模上减少到n/24;在假设a和假设b的条件下,查询的响应时间会减少到n/24,在查询性能上提高了24/n倍。实际情况下,数据不可能被完全的平分,这样查询扫描的数据在最坏情况下受到最大表分区规模的制约。

对于基于分表的数据划分:

设关系R为CSDZ和XZDZ之间组成的关系,关系R可以划分成多个子关系Rc_x,在CSDZ和XZDZ的数据划分基础上,针对全表的查询,在假设c成立的条件下,其查询性能受限于最大子关系的数据规模上。假设最大子关系的数据规模为m,总的数据规模为v,在上述假设都成立的情况下,查询性能的响应时间减少为原来的m/v,性能提高了v/m;考虑数据结果合并的开销,设原来查询相应时间为T,查询处理时间为T1,查询合并时间为T2,则T=T1+T2。基于上述分析,T1的时间减少为原来的m/v,查询合并时间不变,则经过数据划分后查询的响应时间为m/v*T1+T2,其查询性能提升T1+T2/(m/v*T1+T2)。

在考虑物理存储的条件下:

假设rownum为原表中信息总数,length为每条记录的长度,k为子关系的个数,ROWNUMi为子关系i的信息总数。在数据划分之前,设q为查询的总时间复杂度,则q=O(rownum*length)。设q1为数据划分后的查询总时间复杂度,q2为所有子关系的查询时间复杂度总和,q3为返回合并结果的时间复杂度。则q1=q2+q3。因海量数据查询时查询的响应时间远远大约返回合并结果的时间复杂度,即q3<

三、海量数据划分策略的总体架构

通过对数据划分的理解以及对数据划分性能的分析,本文提出基于数据划分策略的海量数据查询模型总体架构分为如图c所示:

底层是各种异构数据库,通常我们称之为“本地数据库”;此层主要用来存放海量数据,并在此层实现表分区、分表的数据划分。中间层是一个基于CORBA标准的事务处理“中间件”层。它的作用是优化数据的存储结构,改写语句的执行策略。上层为业务层,为中间层提供数据和查询语句来源。

该架构数据划分存储到多个自治的数据库中并优化查询语句的执行效率,在底层数据库中用表分区、分表减少数据规模以期提高查询效率。

四、试验

试验一:

试验方案:在公安系统中的oracle9i数据库中选取一组集群,在集群中建立一张TB表,同时建立1000张与TB表相同表结构的子表,其表命名为TB1-TB1000。将数据量为1TB的数据导入到TB表中,并将这1TB的数据平均划分然后导入到1000张子表中,同时将子表动态的组成一张和TB表相同的视图。对TB表和视图分别进行大规模数据查询。

本试验的目的在于测试相同数据规模下单表查询和对多表建立的视图查询的数据查询性能对比,因此在视图查询时不采用并行查询方式,仅测试多表建立的全局视图对查询性能的影响。

试验结果:在数据规模都在80000万的条件下,在串行条件下,对无索引的时间进行顺序扫描,单表扫描的时间大约为十五至二十分钟多分钟,而对分表建立的索引所花费时间要超过二十五分钟;对分表属性进行查询时,二种方式的查询都不超过三分钟。当调整查询方式为并行查询,并行度为10时,对时间的扫描,二者都约三分钟。对内容字段的查询,二者在查询性能上差别不大。

试验结论:在相同规模的海量数据情况下,虽然通过对分表建立统一视图会导致存储空间的增大,但是不明显。并行全视图扫描在查询性能和单表查询达到相同的水平,因而得出结论分表视图的方案可行。

试验二:

方案:在试验一得基础上,通过中间件的并行查询服务对TB表进行单向匹配、双向匹配、不同属性值之间组合的统计查询。

试验结果:

结果分析:在三类查询中除测试c中的一般查询外,分表后的查询相应时间都比为分表后的响应时间短。测试c的一般查询涉及到未进行分表的内容字段,此时会受到文本索引的影响,同时查询结果会在局部的数据库之间传递,此时网络通信时间会占据数据查询响应时间的大部分时间。在对常用的分表字段进行条件查询时,因对数据的扫描规模降低,数据查询相应时间会小于未分表的查询相应时间。进而证实了多维数据划分查询优化方法的可行性。

五、结论

通过对海量数据查询的优化与性能的分析,基于数据划分策略的海量数据优化方法解决了因数据规模在系统的软硬件处理能力之外所造成的数据查询性能低的问题。查询性能得到大幅提升。

数据划分中的分表技术将原表转为子表,子表太多会使系统I/O的次数剧增,造成数据查询性能降低。因此我们要不断的总结、探索找到子表个数的峰值,使得系统充分利用并行性的时候数据的查询性能最高。

参考文献:

[1]朱宁贤.数据库查询的优化策略探讨.办公自动化杂志,2007,8

[2]王能斌.数据库系统.电子工业出版社,1998

[3]韩忠,汪伟.海量数据的查询优化.科技资讯,2006,10

[4]侯潇.海量数据处理中基于数据划分的查询优化研究与实现,2007,11

[5]陈光.多数据库事务处理策略的研究,2000,4

上一篇:2019党建述职报告下一篇:雷军的怕励志人物故事