数据资源描述

2024-06-07

数据资源描述(精选十篇)

数据资源描述 篇1

当前,人们在信息资源的运用上通常面临着两大矛盾:第一,信息资源的海量性和无限增长性与人的精力、时间的有限性形成了尖锐的矛盾;其二,信息资源的无序性与人们使用信息资源时的较强选择性也形成了尖锐的对立[1]。在以计算机为主要信息处理工具的信息化时代,数据资源是信息资源的主要组成部分,其运用同样存在这两大突出矛盾,具体表现为:尽管各类数据资源实际上已经存在,且规模和数量都很庞大,但由于缺乏有效的组织和服务,用户仍然会有不知道有什么数据、不知道数据在哪、不知道数据是什么样的、不知道数据归谁管等现实困难,因而感觉“无数据可用”或“数据不好用”。

解决这个问题的方法就是构建全面的数据资源描述体系,使用户通过完善的数据资源描述信息来寻找、了解、定位所需的数据资源。

1数据资源描述内容

对数据资源的描述可分为三个层次(如图1所示):一是数据资源之间的关系,如分类属性、数据资源之间的关联关系等;二是数据资源本身的特征,包括内容简介、存取访问路径、管理信息、数据格式等;三是数据资源内部结构,主要针对结构化数据资源而言,包括数据库表及字段的结构和定义等。

对数据资源的描述通常以数据集为单位,不同的描述信息会产生不同的作用,如表1所示。

2数据资源描述方法

对于数据资源的不同描述内容,需要采取不同的描述方法,如表2所示。

2.1数据分类

数据分类指根据数据的属性和特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用数据的过程[2]。分类方法有三种:线分类法、面分类法和综合分类法,数据资源的分类可采用综合分类法,以面分类法为主,在大类上采用面分类法,从内容、业务、存储格式等方面进行分类,以线分类法为补充,在每一个面上采用线分类的方式进行分类。一个数据资源可以从多个面描述其分类属性,确保用户从不同的角度进行查询时都能找到所需数据资源,从而满足不同用户的检索查找需求。

为了便于用户查找所需数据资源,数据资源的分类通常以树状形式组织,通过对分类编码采取层次码的编码方式实现。

2.2数据模式描述

数据模式是数据的概念、组成、结构、相互关系的总称,本质上反映的是人类对客观世界的主观认知,在具体内容上涉及数据的描述范围、描述方式和描述结果[3]。通常,数据模式描述主要针对关系结构数据,目的是揭示数据资源的内部结构、属性、联系和约束,提供对数据资源结构的理解支持,便于针对该数据资源开展共享和交换的相关处理。

数据模式描述主要有两种方法:UML和数据字典。UML是通过图解的方式描述数据实体、联系以及相关属性,适用于描述概念模式,其优点是便于表示实体之间的关系,缺点是描述实体内部属性的能力不足。数据字典从名称、定义、版本标识、状态、来源、注释、安全说明等多个方面描述实体及其属性,适合于对实体及属性的详细描述。通常可采用两种描述方式相互补充的策略,使得用户既能通过图形化的E-R模型了解实体间的关系,又能通过数据字典了解实体及实体的属性。

2.3本体描述

近年来,本体在人工智能领域引起了研究人员的兴趣。十九世纪七十年代,Bunge提出Ontology概念,并定义其为“关于真实世界的本质特性的哲学理论”[4],用以研究如何对真实世界中存在的实体进行系统的说明。Ontology藉此由哲学范畴借用于人工智能领域,并且逐渐引起重视,不断被研究和充实,形成了本体论这一重要理论研究领域[5]。当前,本体越来越多地被应用在信息的表示、组织与管理上,以应对当前对基于网络的知识共享和知识交换存在巨大期望和需求。本体形式化的好处就是可以使计算机理解,人机之间以及机器之间可以进行交流,进而支持本体推理发现隐性知识和扩展实现智能代理服务机制。

本体用于数据资源的描述可以实现对实体、对象、属性等概念的精确定义、概念间的关系描述,为数据的理解、数据资源的查找等提供语义层面的支撑。领域本体库中包含了领域内的概念、实例及相互关系,通过在元数据框架中增加“对应本体”元素,指示所描述的数据资源在本体库中对应的概念,从而揭示数据资源之间的关系。

2.4数据元描述

在信息交换领域,数据元(DataElement)是表示概念的一类数据,由支持信息交换的定义、标识、表示以及允许值等一系列属性来表示,在特定的语义环境中被认为是不可再分的数据最小单位[6]。数据元作为数据的基本单元,其规范涉及到为每一个数据元的相关特性进行规范化说明,以确保自然界事物表示的一致性与准确性。通过对数据元及其属性的规范化和标准化,不同用户可以对数据拥有一致的理解、表达和标识,可以有效实现和增进跨系统和跨环境的数据共享。

数据元描述主要针对结构化数据资源进行,描述的对象是数据库的表字段,目的是明确数据库表字段的含义,统一不同用户对同一字段的理解,确保数据组织人员在进行数据交换、抽取转换等操作时能正确理解字段的含义。

2.5元数据描述

元数据用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁,元数据能解决的问题包括:描述(description)、资源发现 (resources discovery)、认证(authentication)、互操作(interoperability)、数据管理(data management)、访问控制(rights management)、数字化保藏(digital preservation)和内容分级(content rating services)等。因此,元数据是打开对多源数据资料进行获取、智能分析以及运算大门的钥匙[7]。

3面向应用的多层次数据资源描述框架

3.1组成部分

数据资源描述要涵盖数据资源外部关系、本身特征和内部结构等三个层次,需要综合运用多种描述方法构建数据资源描述框架,包括数据资源分类描述、数据模式描述、本体描述、数据元描述和元数据描述等。

领域本体无论以什么语言描述,每个本体均有唯一标识符,可以通过在元数据库中引用本体的标识符实现关联;数据分类、数据元均发挥参照标准的作用,可以通过在元数据库中引用数据分类码和数据元标识码实现关联;数据模式描述是与具体的数据资源相匹配的,存在形式为模式文件,在元数据库中通过文件路径的引用实现关联。因此,数据资源多层次描述框架的组成关系如图2所示。

对数据资源的多层次描述可构建如图3所示描述框架。

3.2结构设计

描述数据资源的元数据模式包括了元数据对象、数据集对象、数据分类、数据元、本体等,其E-R图如图4所示。

3.3构建流程

在多层次数据资源描述框架中中,本体库、数据元库和数据分类与具体数据资源无关,在描述框架中作为参照标准,应该先行构建。其中数据分类与编码在数据元描述中也有引用,因而其建设顺序在最前面,元数据描述和数据模式描述是和具体数据资源相关的,应该在将数据资源纳入组织管理体系的时候同步构建。因此,这种多层次数据资源描述框架的构建流程如图5所示。

4多层次数据资源描述及应用示例

通过对数据资源进行多层次描述,数据组织者可以在发现、获取和利用数据的过程中为用户提供一系列信息支持。下面以高校数据资源为例说明多层次数据资源描述的应用。

4.1数据资源描述示例

按照多层数据资源描述框架设计,假定为某高校数据资源建立如图6所示的分类标准、本体库和数据元标准。

某学生团体构建了会员资料数据库,假定为S,则对其进行描述的示例信息如表3所示。

4.2数据资源描述的应用

基于对数据资源的多层次描述,可以为用户提供多种检索数据资源的途径,并能为用户提供数据资源的概述信息,从而解决数据发现和数据使用问题。

检索数据资源的途径有三种:关键词匹配查询、语义关联查询和分类检索。其中关键词查询可基于数据资源的资源名称、内容简介和关键词等描述信息通过匹配的方式实现,例如用户在检索“话剧”、“学生团体”、“会员”等关键词时,均可检索到S。语义查询则基于数据资源的本体编码和本体库实现,当用户检索教学力量时,通过本体的推理可知本体“xx协会数据”与其相关,而S的本体编码为B1,因而,以“教学力量”为关键词进行语义关联查询时也可查询到S。分类检索基于数据资源的分类编码和分类标准实现,用户通过分类标准提供的分类树可逐步缩小检索范围,最后定位到S。

在检索到S后,基于对S的描述信息,用户可以获知S的名称、类型、内容简介等概述信息,进而判断该数据资源是否符合自己的使用需求。

若检索到的数据资源符合使用需求,数据资源的管理人、访问接口等描述信息可以提供必要的信息支持,使用户能够据此向S的管理者提出使用要求,从而获得该数据资源。

在使用得到的数据资源时,数据资源的模式描述信息、内部结构信息等为数据的理解提供了信息支持,例如,在理解“性别”字段时,通过其关联的数据元代码可以知道,该字段是描述学生性别的,采用代码进行表述,从而使不同用户统一对S中某表字段“性别”的理解、处理和使用。

5结语

本文提出的数据资源描述体系综合了数据分类与编码、数据模式描述、本体、数据元标准和元数据描述等方法。实践证明,基于这种多层次数据资源描述信息,可以在用户发现数据阶段提供多角度数据查询定位服务,如目录树导航、关键字匹配查询和语义关联查询等,在用户使用数据阶段提供数据结构、数据语义等信息,为系统设计人员、数据管理人员提供支撑信息,从而扫清用户在运用数据资源过程中的种种障碍,提高数据资源的运用效率。

参考文献

[1]约翰.奈斯比特.大趋势[M].梅艳,译.北京:中国社会科学出版社,1984:21-24.

[2]中华人民共和国科学技术部.SDS/T2122-2004科学数据共享工程技术标准-科学数据共享工程数据分类编码方案[S].2006-06.

[3]中华人民共和国科学技术部.SDS/T2133-2004科学数据共享工程技术标准-数据模式描述规则与方法[S].2005-05.

[4]Bunge M.Treatise on Basic Philosophy:Ontology I--The Furniture of the World[M].Reidel Pub Co,1977.

[5]邓志鸿,庸世渭,等.Ontology研究综述[J],北京大学学报:自然科学版,2002,38(5).

[6]中华人民共和国科学技术部.SDS/T2132-2004科学数据共享工程技术标准-数据元标准化的基本原则与方法[S].2005-05.

数据统计员的职责描述 篇2

1、根据项目需求,回访到场专业买家反馈;

2、对与客户的通话内容做好电脑系统的信息录入及后期处理工作;

3、问卷调查数据录入与编写分析报告;

4、协助相关部门完成项目。

要求:

1、性别不限,专科或同等学历以上;

2、普通话标准、流利,口齿清晰,有良好的语言表达能力和沟通能力;

3、懂办公软件的基础应用,电脑打字速度40字/分钟;

4、高度的工作热情和耐心,心态端正,有责任心,以及良好的团队合作意识;

数据资源描述 篇3

关键词 教学资源描述 元数据 RDF

中图分类号:G642 文献标识码:A

0 引言

信息化是教学改革的重要组成部分,在教师课前备课、课中授课、课后复习等教学环节中充分利用互联网络的便捷性和计算机展示技术的多样性,已形成广泛的共识。而目前已建成的各类网络教学资源,由于建设形式多样,技术不统一,缺乏必要的建设指导规范和标准,共享率及利用率普遍比较低,无法对已建的各类教学课件资源进行有效的检索查询,极大地制约着教学资源的实际使用,也阻碍着多媒体教学工作往深层次的优化。本文研究教学资源的共性语义描述,在都柏林核心元数据的基础上,实现对教学资源的扩展元数据规范定义,给出适用于Web实现的RDF框架描述。

1 元数据及RDF框架

元数据(Metadata),一般认为是描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来实现如存储位置、历史数据、资源查找、文件纪录等功能。元数据能为各种形态的数字化信息单元和资源集合提供规范、普遍的描述基准和方法,对资源的组织和管理具有重要作用。网络教学资源的元数据的主要目的是描述网络教学资源的属性信息,用来快速地识别资源、评价资源、追踪资源、过滤资源和使用资源,是教学资源的特征属性数据。

资源描述框架(Resource Description Framework,缩写 RDF),是万维网联盟(W3C)提出的一组标记语言的技术标准,以便更为丰富地描述和表达网络资源的内容与结构。RDF 定义一套可描述知识概念和实例的规范标准,专门用于表达网络资源的元数据,在语义表达和交换上更灵活。它提供了一种用于表达信息,并使其能在应用程序间交换而不丧失语义的通用框架。RDF用形如 (classes—properties—values)类似于面向对象(类—属性—值)的三元组来描述Web 上的各种资源和它们之间的关系,并提供了固有的语义单元。应用领域专用的类和属性需要通过对 RDF 的扩展来定义,这种扩展通过RDF Schema来实现,RDFS不提供实际的应用程序专用的类和属性,而是提供了描述应用程序专用的类和属性的框架。

2 网络教学资源元数据框架设计

网络教学资源元数据是构建基于Web的学习门户的基础数据规范,主要解决异构类型多的网络学习资源的整合以及系统间的通信规范,可促进网络教学资源的高效配置和综合利用。框架设计核心元数据规范、知识点元数据规范、图像通用元数据规范、动画通用元数据规范、音视频通用元数据规范,核心元数据规范是框架的核心,遵循柏林核心元数据规范扩展。

3 核心元数据规范

核心元数据规定了网络统一学习服务门户所需的核心元数据、各元素的语义定义,以及学习资源的信息标识、内容、管理和维护等描述信息。

(1)标识符

URI:http://www.***.com/core/terms/identifier

中文名称:标识符

英文名称:identifier

定 义:资源的唯一标识

数据类型:字符串

值 域:自由文本

(2)名称

URI:http://www.***.com /core/terms/title

中文名称:名称

英文名称:title

定 义:资源的名字或称谓

数据类型:字符串

值 域:自由文本

注 释:必选项,最大出现次数为1

(3) 创建日期

URI:http://www.***.com core/terms/create_time

中文名称:创建日期

英文名称:create_time

定 义:资源最初的创建日期

数据类型:日期型

值 域:日期,按GB/T 7408执行

注 释:必选项,最大出现次数为1

(4) 最新修改日期

URI:http://www.***.com /core/terms/last_modify_time

中文名称:最新修改日期

英文名称:last_modify_time

定 义:最近一次修改资源信息的日期

数据类型:日期型

值 域:日期,按GB/T 7408执行

注 释:必选项,最大出现次数为1

(5) 描述

URI:http://www.***.com /core/terms/description

中文名称:描述

英文名称:description

定 义:资源内容的综述性介绍

数据类型:字符串

值 域:自由文本

注 释:必选项,最大出现次数为1

(6)关键字

URI:http://www.***.com /core/terms/keywords

中文名称:关键字

英文名称:keywords

定 义:用于描述资源主题的通用词、形式化词或短语

数据类型:字符串

值 域:自由文本

注 释:必选项,最大出现次数为N

(7)访问控制

URI:http://www.***.com /core/terms/view_control

中文名称:访问控制

英文名称:view_control

数据类型:字符串

值 域:1或2

注 释:必选项,最大出现次数为1

(8) 创建者

URI:http://www.***.com /core/terms/creator

中文名称:创建者

英文名称:creator

定 义:创建资源对象的主要责任人或组织机构

数据类型:复合型

可 选 性:必选

最大出现次数:N

4 结论

本文分析并实现了网络多媒体教学资源的元数据框架,定义了框架的核心元数据、各元素的语义定义。该框架通用性高,便于资源的管理和共用。

参考文献

[1] 孙默.网络多媒体教学资源建设中的问题与对策.中国电化教育,2011.7.

[2] 张靖.基于XML/RDF的MARC元数据描述研究.微计算机信息,2007.36.

探究用方差描述数据的离散程度 篇4

甲班:80, 70, 80, 90, 100, 60, 80, 70, 80, 90

乙班:60, 100, 60, 100, 70, 90, 60, 100, 60, 100

你认为哪个班级的学生考得好些?

探究一:求甲、乙两班的平均分.

探究二:求甲、乙两班的极差.

甲班的最高分是100分, 最低分是60分.甲班的极差是=100-60=40.

乙班的最高分是100分, 最低分是60分.乙班的极差是=100-60=40.

归纳:从探究一和探究二可以看出, 两班的平均分与极差都相同, 无法判别两班成绩的高低.

探究三:将甲、乙两班的成绩填入下表.

从表中可以看出, 甲班的数据比较集中在平均数附近波动, 乙班的数据与平均数的偏差比较大.

怎样用一个量来描述这两组数据偏离平均数的大小呢?

探究四:在下表中填写各数与平均数的差 (x′表示与平均数的差) .

甲班

乙班

探究五:把这些差相加

甲班:0-10+0+10+20-20+0-10+0+10=0.

乙班:-20+20-20+20-10+10-20+20-20+20=0.

探究六:把这些差的约对值相加

甲班:|0|+|-10|+|0|+|10|+|20|+|-20|+|0|+|-10|+|0|+|10|=80.

乙班:|-20|+|20|+|-20|+|20|+|-10|+|10|+|-20|+|20|+|-20|+|20|=180.

探究七:把这些差数的平方相加

甲班:02+ (-10) 2+02+102+202+ (-20) 2+02+ (-10) 2+02+102=1 200.

乙班: (-20) 2+202+ (-20) 2+202+ (-10) 2+102+ (-20) 2+202+ (-20) 2+202=3 400.

从上面的探究六和探究七可以看出, 把这些差的绝对值相加或将这些差的平方相加可以区分和比较这两组数据.

从上面的探究过程可以理解下列问题:

1.为什么不可以用各个数据与其平均数的差的和来衡量这组数据的波动大小呢?

答:因为正负偏差会相互抵消, 所以它们的和不能体现数据的波动情况.

2.为了防止正、负偏差的相互抵消, 为什么对各数据与其平均数的差不取其绝对值, 而将其平方呢?

答:这是因为含有绝对值的式子不便于运算, 且在衡量一组数据波动大小的“能力”上, 方差、标准差更强些.

3.方差使用的前提是什么?

答:方差的作用是用来比较两组数据的波动大小的, 值得注意的是, 在实际情境中, 只有在数据的平均数相等或比较接近时, 才能用这种方法, 否则一般是不能用方差比较数据的波动大小的.

4.方差是越小越好吗?

答:一般而言, 一组数据的方差越小, 这组数据就越稳定, 因此有同学认为在实际生产生活中方差越小越好, 这种观点是片面的.现举例说明.

例为选派一名学生参加全市实践活动技能竞赛, A、B两位同学在学校实习基地现场进行加工直径为20 mm的零件的测试, 他俩各加工的10个零件的相关数据依次如下图表所示 (单位:mm) .

根据测试得到的有关数据, 试解答下列问题:

(1) 考虑平均数与完全符合要求的个数, 你认为_______的成绩好些;

(2) 计算出SB2的大小, 考虑平均数与方差, 说明谁的成绩好些;

(3) 考虑图中折线走势及竞赛中加工零件个数远远超过10个的实际情况, 你认为派谁去参赛较合适?说明你的理由.

(1) 从表中可以看出两人平均数相同, 但B完全符合要求的个数多, 故B的成绩好.

(3) 从图中折线走势可知, 尽管A的成绩前面起伏较大, 但后来逐渐稳定, 误差小, 而B则相反, 所以预测A的潜力大, 可选派去参赛.

数据描述的测试题及答案 篇5

一、填空题(每小题3分,共24分)

1.某城市人口为3.05106,原数为_______.

2.我国的外汇储备约为4033亿美元,用科学记数法表示为_______.

3.计算机存储容量的基本单位是字节,用b表示,计算机中一般用Kb(千字节)或Mb(兆字节)或Gb(吉字节)作为存储容量的计量单位,它们之间的关系是:1Kb = 2 10 b , 1 Mb = 2 10 K b, 1 Gb = 2 10 Mb , 一种新款电脑的硬盘存储容量为40 Gb,它相当于________Kb.(结果用科学计数法表示,并保留三个有效数字)

4.你的步长约为 (填50毫米、50厘米、50分米 、50米);100万步有________米(科学记数法表示);可以绕800米一圈的操场 圈.

5.在扇形统计图中,有一个扇形的圆心角度数为150,那么这个扇形表示的部分占总体的百分比为_________.

6.在扇形统计图中,有两个扇形的圆心角度数之比为3︰7,且知较小扇形表示15公顷稻田,那么较大扇形表示_________公顷稻田.

7.某市人口150万,其中各民族所占比例如图6-6所示,则该市少数民族人口有__________万人.

8.某消费者协会就城镇居民对物价水平满意程度进行了抽样调查,结果如图6-7所示,则城镇居民中对物价水平表示认可的约占___________%.

二、选择题(每小题3分,共24分)

9.(北京市西城区中考题)人类的遗传物质就是DNA,人类的DNA是很长的链,最短的22号染色体也长达30000000核苷酸,30000000用科学记数法表示为

A.310 B.310 C.310D.0.310

10.气象小组测得一周每天的最高气温分别是:15℃、17℃、18℃、21℃、14℃、16℃、18℃为了反映这一周的气温变化情况,应制作的统计图是( )

A.条形统计图 B.折线统计图 C.扇形统计图 D.非上述统计图

11.电机厂从一月份到六月份分别生产电机128台、124台、144台、136台、146台、140台.依据这些数据可以制作的统计图为( )

A.条形统计图 B.折线统计图 C.扇形统计图 D.上述统计图均可制作

12.已知甲、乙、丙、丁共有课外书30本,又知甲、乙、丙、丁的课外书制作的条形统计图的高度之比为2︰4︰3︰1,则乙的`课外书的本数为( )

A.12 B.14 C.16 D.18

13.拖拉机耕地,第一天耕地15公顷,第二天比第一天多耕3公顷,第三天耕地27公顷.则第三天耕地的公顷数占这三天总数的( )

A.25﹪ B.45﹪ C.55﹪ D.65﹪

14.1本数学参考书的厚度为1.2厘米,200万本这样的参考书摞在一起的高度为( )

A.2.4千米 B.24千米 C.240千米 D.2400千米

15.对向阳中学七年级(10)班学生进行调查,发现有16人最喜欢打乒乓球,有12人最喜欢打排球,有22人最喜欢踢足球,为了清楚表示爱好各种球类活动的具体人数,应该制作的统计图( )

A.条形统计图 B.折线统计图 C.扇形统计图 D.条形、扇形统计图均可

16.某商店一周中每天卖出的衬衣分别是:15件、17件、18件、14件、21件、30件、28件,为了反映这一周销售衬衣的变化情况,应该制作的统计图是( )

A.条形统计 B.折线统计图 C.扇形统计图 D.非上述统计图

三、数形结合题

17.(10分) 下面是某报公布的第二十二届世界大学生运动会在游泳、跳水、击剑等项目上,获得奖牌的国家和地区的前十位排名(截止到208月24日):

排名 国家/地区 金牌 银牌 铜牌 总数

1 韩国 8 2 0 10

2 中国 7 3 4 14

3 俄罗斯 3 2 4 9

4 乌克兰 1 3 2 6

5 日本 1 2 2 5

6 中国台北 1 2 2 5

7 法国 1 0 2 3

8 英国 1 0 1 2

(1)截止到年8月24日,为了反映各国获得金牌数百分比,你将选择并绘制怎样的统计图?

(2)为了反映各国获得的金、银、铜牌的具体数据,你将选择并绘制怎样的统计图?

18.(10分)观察图6-8,并回答问题:

(1)如果用整个圆表示总体,那么图中的扇形A、B、C、D

各占总体的几分之几?

(2)如果用整个圆代表你们学校的人数,而且知道扇形A

代表600人,试计算全校有多少人?

(3)如果用整个圆代表一片麦地,而且A、B两块地共9公顷,

那么整块麦地有多少公顷?

19.(12分)观察图6-9所示的扇形统计图,并回答问题:

(1)全世界共有_______个大洲,_______的面积最大;

(2)________这两个洲的面积之和最接近地球总陆地面积的一半;

(3)图中各个扇形分别代表了________,

所有百分比之和是__________;

(4) 地球的表面积为5.1亿平方千米,而陆地面积为1.49

亿平方千米,仅占整个地球表面积的29.2% .则亚洲的

陆地面积约为___________万平方千米(用科学记数法表示),

它占地球的表面积约为___________.

20.(12分) 图6-10是七年级小彬一天的时间安排统计图:

(1)小彬这天的时间安排是否合理?为什么?

(2)你能为他设计一张时间安排表吗?并用扇形统计图表示他一天的作息情况.

21.(14分)一所学校准备搬迁到新校舍,在迁入新校舍之前,同学们就该校1500名学生如何到校的问题进行了一次调查,并得到下列数据:

到校方式 步行 骑自行车 乘公共汽车 其他

人数 900 300 200 100

根据上面的数据分别制成扇形统计图和条形统计图,你能得到哪些信息?

22.(14分)为迎接世界无烟日的到来,小明对10名戒烟者,戒烟前和戒烟五星期后的体重作了认真统计,并绘制了如图所示的条形统计图和折线图.

(1)根据条形统计图(图6-11所示),你能用表格列出这10人戒烟前后的体重吗?

(2)根据折线统计图(图6-12所示),你能估计这10人戒烟前后的体重变化趋势吗?

(3) 通过上述数据,你能得出什么结论?

参考答案:

1.3050000(点拨:3.05106=3.051000000=3050000.)

2.4.0331011(点拨:4033亿的整数位数有12位.)

3.4.19 10 7Kb (点拨:40 Gb = 40 2 10 M b =402 10 2 10 K b =10 2 22 Kb.)

4.50厘米; 5105,625(点拨:100万步=1060.5m= 5105.)

5.41.7%(点拨:扇形中每部分占总体的百分比等于该部分所对应的扇形圆心角度数与360的比.)

6.35公顷(点拨:设较大扇形表示x公顷稻田,可列方程15︰x=3︰7.)

7.22.5(点拨:150(8%+4%+3%)=22.5.)

8.75.9;(点拨:对物价水平表示认可的人包括满意的人和尚可接受的人.)

9.B(点拨:30000000=310 .)

10.B(点拨:反映这周气温变化情况,可以选择折线统计图.)

11.D(点拨:已知这六个月生产的电机台数,可制作条形、折线、扇形统计图.)

12.A(点拨:乙占课外书总数的百分比为: =40%;

乙课外书数为:3040%=12(本).)

13.B(点拨:27(15+18+27)=45﹪.)

14.B(点拨:1.2厘米200万=2400000厘米=24千米.)

15.A(点拨:条形统计图能清楚表示每个项目的具体人数.)

16.B(点拨:折线统计图能清楚反映事物的变化情况.)

17.(1) 图6-13所示的扇形统计图可反映各国获得金牌数的百分比;

(2) 图6-14所示的条形统计图可各国获得的金、银、铜牌的具体数据.

18.(1) , , , ; (2)因为扇形A代表600人,而扇形A是总体的 ;则全校的人数为:600 =4320(人);(3)因为A、B两块麦地共9公顷,且A、B两块麦地相等,则A、B两块麦地均为4.5公顷.整片麦地为4.5 =32.4(公顷).

19.(1)全世界共有七大洲,亚洲的面积最大;

(2)亚洲和非洲这两个洲的面积之和最接近地球总陆地面积的一半;

(3)图中各个扇形分别代表了七大洲分别占地球陆地面积的百分比,所有百分比之和是1;

(4) 亚洲的陆地面积约为1.4929.3﹪=0.43657(亿平方千米)=4.3657103

(万平方千米),占地球的表面积约为0.436575.18.56﹪.

20.(1)不合理.因为他的睡觉时间较少,学习时间太长.

(2)可设计如下的时间安排表,绘制如图6-15所示的扇形统计图

睡觉 学习活动 吃饭 上学放学

8.5 9 3.5 1.5 1.5

21.由扇形图知,学生步行、骑自行车、乘公共汽车、其他四等方式

到校的各占总人数的60﹪、20﹪、13.3﹪、6.7﹪;由条形统计图知,

按以上四种方式到校的学生人数分别为900人、300人、200人和100

人.因此学校至少需做停放300辆自行车的停车棚;学生尽量步行上

学,因为步行既能锻炼身体,又可以减少交通事故.

22.(1)根据条形统计图,用表格列出这10人戒烟前后的体重如下:(单位:千克)

(2)根据折线统计图,发现戒烟后数据的波动比戒烟前数据的波动大,且大多数人的体重有所增加;

《数据的收集、整理、描述》测试卷 篇6

1. 下列调查工作需采用普查方式的是( ).

A. 国家环保部门对长江某段水域的水污染情况的调查

B. 扬州电视台对正在播出的某电视节目收视率的调查

C. 质检部门对各厂家生产的电动车电池使用寿命的调查

D. 某单位在给演员做演出服前进行的尺寸大小的调查

2. 某电商为了了解一批网络电视机的使用寿命,从中抽取1000台电视机进行试验,这个问题的样本是( ).

A. 这批电视机

B. 这批电视机的使用寿命

C. 抽取的1000台电视机的使用寿命

D. 1000台

3. 如图是张萌同学绘制的统计图,其中所提供的信息正确的是( ).

A. 七年级学生最多

B. 九年级的男生是女生的两倍

C. 九年级学生女生比男生多

D. 八年级比九年级的学生多

4. 某校八(1)班的全体同学最喜欢的球类运动用如图所示的统计图来表示,下面说法正确的是( ).

A. 从图中可以直接看出喜欢各种球类的具体人数

B. 从图中可以直接看出全班的总人数

C. 从图中可以直接看出全班同学一学期来喜欢各种球类的人数变化情况

D. 从图中可以直接看出全班同学现在最喜欢的各种球类的人数的大小关系

5. 统计得到的一组数据有80个,其中最大值为157,最小值为60,取组距为10,可以分成( ).

A. 10组 B. 9组 C. 8组 D. 7组

6. 某单位有职工200名,按他们的年龄分成8组,在40~42(岁)组内有职工64名,那么这个小组的频率是( ).

A. 0.12 B. 0.38 C. 0.32 D. 32

7. 已知样本:13、7、11、8、10、7、12、10、13、8、9、10、14、11、10、9、17、10、12、9,那么样本数据落在范围8.5~11.5内的频率是( ).

A. 0.52 B. 0.4 C. 0.25 D. 0.5

二、 填空题

8. 学校要了解八年级学生的视力情况,在全校八年级的12个班级中都随机抽取了15名学生进行检测,在这个问题中,样本容量是_________.

9. 养殖户老林为了估计鱼塘中鱼的条数,首先从鱼塘中打捞60条鱼做上标记,然后放归鱼塘,经过一段时间,等有标记的鱼完全混合于鱼群中,再打捞200条鱼,发现其中带标记的鱼有4条,则鱼塘中估计有________条鱼.

10. 在一个不透明的盒子中装有n个小球,它们只有颜色上的区别,其中有3个红球,每次摸球前先将盒中的球摇匀,随机摸出一个球记下颜色后再放回盒中,通过大量重复试验后发现,摸到红球的频率稳定于0.2,那么可以推算出n大约是__________.

11. 根据预测,21世纪中叶我国劳动者构成比例绘制成扇形统计图如图所示,则第一、二、三产业劳动者的构成比例是________.

12. 李明将收集到的40个数据进行整理分组,已知落在某一区间内的频数是8,则该组的频率是________.

13. 小龙在爸爸的手机上清楚、直观地看出了“已用空间”与“可用空间”占“整个空间”的百分比,那么他看到的统计图是________.

14. 在绘制频数分布直方图前,李老师将一批数据分成4组,列出频率分布表,其中第一组的频率是0.23,第二与第四组的频率之和是0.55,那么第三组的频率是________.

15. 小童统计了自己一天的时间安排情况,绘制出了如图所示的统计图,请根据图中的信息计算:小童一天中,上学、做家庭作业和体育锻炼的总时间占全天时间的________%.

16. 如图所示,根据八(5)班54个学生的数学成绩绘制的频数分布直方图中,各小长方形的高的比AB∶CD∶EF∶GH∶PK=1∶3∶7∶5∶2,若80分成绩为优秀,则优秀率是________.

17. 如果你是班长,想组织一次市区内的春游活动,并用问卷的形式向全班同学进行调查,那么你设计的调查内容是(请列举一条)________________________________.

三、 解答题

18. 我校围绕“每天30分钟的大课间,你最喜欢的体育活动项目是什么?(只写一项)”的问题,对在校学生进行随机抽样调查,从而得到一组数据.图1是根据这组数据绘制的条形统计图,请结合统计图回答下列问题:

(1) 该校对多少学生进行了抽样调查?

(2) 本次抽样调查中,最喜欢篮球活动的有多少?占被调查人数的百分比是多少?

(3) 若我校九年级共有400名学生,图2是根据各年级学生人数占全校学生总人数的百分比绘制的扇形统计图,请你估计全校学生中最喜欢跳绳活动的人数约为多少?

19. 晓红随机抽取了某一年中扬州30天的空气质量状况统计如下:

其中:w≤50时,空气质量为优;50

(1) 如果要利用面积分别表示空气质量的优、良及轻微污染,那么这三类空气质量的面积之比为多少?

(2) 估计扬州这一年(以365天计)中有多少天空气质量达到良及以上.

(3) 保护环境,人人有责.你能说出几种保护环境的好方法吗?

20. 近年来,中学生的身体素质普遍下降,为了提高本校学生的身体素质,落实教育部门“在校学生每天体育锻炼时间不少于1小时”的文件精神,某校对部分学生每天的体育锻炼时间进行了调查统计.以下是本次调查结果的统计表和统计图.

(1) 求出本次被调查的学生数;

(2) 求出统计表中a的值;

(3) 根据调查结果,请你估计该校3 000名学生中每天体育锻炼时间不少于1小时的学生人数.

数据资源描述 篇7

1 GIS数据模型分析

地理现象的抽象、表达、组织和存储是GIS数据管理的核心内容之一[4]。地理空间数据模型是用数据对现实世界地理空间进行抽象表达和形式化描述。目前GIS数据模型主要有矢量数据模型、栅格数据模型或矢量—栅格一体化模型。这些模型将空间地物的图形信息、属性信息进行分开管理,有效地实现了地理空间的表达和复杂空间数据的存储与管理。但从网络环境下空间信息管理和共享角度来看,这些描述和表达方法还存在一些不足[3],主要体现在:(1)难以满足描述客观世界的整体特征要求。目前的空间数据模型是将地理特征表达为带有分类属性的几何图形,以图层(layer)为基础进行空间数据的组织、存储、修改和显示。在客观世界中,用户感知到的地理现实世界是一个个地理实体,例如一条道路可能由多条线、多个点或多个面构成,而不是仅由点、线、面中一类几何图形构成。分层存储使得本来联系紧密的地物分开存储,不能完全充分地反映现实世界,难以表达复杂地理实体的整体特征,缺乏空间实体之间关系的完整描述框架,从而导致复合操作和分析效率低下,处理能力较弱。(2)采用静态、单时相组织与管理空间数据,概念模型没有时态版本定义和分布式对象标识定义等,限制了分析决策事务的实现。即使一些GIS系统扩充了时态属性,其分布属性的空间逻辑模型与GIS核心结构也难于融为一体。(3)传统数据组织方法是基于要素的描述,缺少语义方面的表达。当把同一空间实体信息存储在不同服务器时,如某公司的位置信息在测绘局,注册信息在工商管理局,房产信息在房产管理局,经营信息在公司,要将这些的信息一体化管理,传统的空间实体描述方法和数据共享方法就很难实现。(4)在GIS空间数据模型的建立中,缺乏对空间实体关系的表达,它仅描述了点、线、面元素之间的相互关系,而不能直接描述实体的语义关系,如单位与道路的关系、某建筑与某单位的关系等。不能充分考虑空间关系和算法与地理要素操作的关系,就难以使空间关系和算法与GIS空间模型结合起来,也不能有效地进行空间查询与决策分析。

2 基于实体的地理空间认知过程

2.1 认知、空间认知和地理空间认知[3,5]

认知是一个人对他所生活世界的认识和了解的各个过程的总称,是概念形成、问题求解、语言描述、个性差异等有机联系的信息处理过程。人类通过对客观世界进行信息获取、存贮、转换、分析和利用,认识、理解和掌握客观事物的本质特征与规律,并形成概念世界来描述和表达客观世界。

空间认知是地理学与心理学的一个重要的交叉研究领域,是人们各种认知形式之一。空间认知就是研究人们怎样通过获取、处理、存贮、传递和解译空间信息来认识自己赖以生存的环境,包括其中的诸事物、现象的相关位置、空间分布、依存关系,以及它们的变化和规律。

地理空间认知是指人类逐步理解地理空间,进行地理分析和决策,包括地理信息的知觉、编码、存储、记忆和解码等一系列心理过程。它是对地理现象或地理空间实体的感知过程、表象过程、记忆过程和思维过程的编码、内部表达和解码的过程。地理空间认知的研究内容包括地理事物在地理空间中的位置(Where)和地理事物本身性质(What)。

2.2 基于实体的地理空间认知过程

现实世界中的各种地理现象和实体复杂多样,它们的关系更是错综复杂,从不同角度、用不同方法去理解现实世界,会产生不同的模型。基于实体的地理空间认知是将研究的整个地理空间看成一个空域,将地理现象抽象成独立的地理实体分布在这空域中,并以对象的方式存储和管理。按照其空间特征将地理实体划分成客观对象和语义对象,客观对象是指客观存在的对象,例如要对一栋楼房的信息进行管理,楼房就作为客观对象,语义对象是指人们根据实际需要而定义的非客观存在的对象,如要对一个公司进行管理,公司就作为语义对象。每个对象对应着一组相关的属性和特定的关系以对各个不同的对象进行管理。对象经过数据采集、标准化、语义转换等几个环节处理后,按照地理对象构建规范要求,构建对象,最后根据数据库平台设计要求,建立数字城市空间数据库,并满足综合应用服务(见图1)。

3 基于地理认知的空间实体描述方法

3.1 地理空间实体的描述

地理空间信息围绕着空间实体、实体间的空间关系及时空过程等方面信息进行描述。地理空间信息主要由位置(Position)、属性(Attribute)和空间关系(Relation)等要素组成(见图2)。

(1)空间位置特征

空间位置特征也称为几何特征,具体包括空间实体的位置、大小、形状、分布状况等,可以用地理坐标来表示。

(2)属性特征

属性是人们通过对周围空间实体的认识、了解和解释,并在头脑中形成相应的对空间对象的定义、描述和说明。属性数据是地理空间实体相联系、具有地理意义的数据,用于表达事物本质特征和对实体的语义定义,以区别于其它实体。

(3)空间关系

空间关系与人类认识、传输和改造现实世界的活动息息相关,是人类对于地理空间认知结果的高度概括,是人类所形成的空间概念的基本组成部分。通常情况下,描述与记忆一个空间实体的位置时,不是以几何坐标的形式给出,而是以它与周围物体关系的形式给出,如一个学校在哪两条路之间,靠近哪个道路交叉口;一块农田离哪户农家或哪条路最近。这些语义属性在空间描述、推理与分析过程中比几何位置的描述更基本、更重要。

3.2 面向对象空间数据模型体系构成

面向对象空间数据模型(Object-Oriented Spatial Data Model,简称OOSDM)是以面向对象技术为基础的一种空间实体描述方法,是将表达对象的数据(属性)与处理数据的方法作为一个有机整体对待,以对象为中心设计空间数据库体系结构。

3.2.1 对象的定义

在OOSDM的模型中,将基于要素模型的点、线、面、体称为元素,而将具有客观现实意义的空间实体统称为地理对象,把构成某一空间实体的最小单元称为元对象(Mete Object,MO),对象是数据库的基本单元,元对象是最小单元。对空间实体的描述采用组合的表示方式(见图3),其中元对象可用点、线、面、体及其组合来表示,组合对象由多个元对象构成,多个组合对象又可以构成新的组合对象。空间实体对象可由单一的元对象描述,还可由多个元对象的组合(组合对象)来表达[6]。地理对象除了空间特征、属性特征外,还增加了能够表达空间实体的变化规律、分类规则、应用分析模型等知识的关系、特征和操作方法的描述。

元对象MO用一个三元组((E,A),F,D)表示,(E,A)为一个二元组。(E,A)为地理实体的内涵,其中,E是一个客观存在,地理实体要有一个客观存在的地理事物或地理现象,且具有唯一的标识符;A是统一在地理实体下客观存在的属性,包括空间和非空间属性。A=GA U EA,GA为实体的空间属性集合(Geo-Attribute),GA={GAi,i=1,2,3…n},空间属性用来描述实体的地理位置坐标等相关内容。EA则为实体一系列非空间属性集合(Entity Attribute),EA={EAi,i=1,2,3…n},非空间属性用来描述实体的分类、名称、说明等各种非空间特性。为保证地理实体属性的完整性和便于管理与查询,在数据管理过程中将属性统一到对象关系数据库中。F为对象受理的方法集合(Methods Function),D为地理实体的外延,是客观存在E的语义特征集,是对客观存在语义上的描述,是从人们认知角度给地理实体一个描述。

E是由其他的对象构成组合对象:

ei是具有完整地理意义的元对象。

3.2.2 OOSDM的模型体系构成

面向对象模型利用面向对象的技术,把GIS要处理的地理目标,抽象为不同的地理对象,将各对象的标识符、属性与方法封装在一起,并建立各对象的联系(见图4)。一般是将地理空间目标抽象为点状地物、线状地物、面状地物、复杂地物等一系列对象。而对这些对象信息的表现、修改及操作需要通过对象的方法接口来实现,同时各对象可以统一存储,也可以独立存储。

3.2.3 基于OOSEM的数据管理

基于OOSEM的地理空间数据管理是将空间实体按照OOSEM的要求以对象方式将几何信息和属性信息统一存储到Oracle Spatial、Sybase等对象-关系数据库中。每个对象在数据表单中占用一条记录,图形信息存放到GEOLOC类型的SDO-GEOMETRY字段中,数据库表单之间通过对象ID建立联系。

数据表的设计主要有元对象表、组合对象表和对象逻辑关系数据表三类。其中,元对象表用来存储元对象信息;组合对象数据库不存储位置信息,而按照OOSEM的原则存储组合对象的信息和构成组合对象的元对象地址信息。逻辑关系数据表用来存储对象间的逻辑关系信息。

三类表的关系如图5所示,元对象表中的某些元对象构成了组合对象数据库中的某一对象,这个对象除了具有自己的空间信息和属性信息,还继承了构建对象的所有属性。在构建过程中,自动生成对象间的逻辑关系数据表,来存储对象间的逻辑关系。在建立新对象或修改对象过程中,需要把相关信息通知有关元对象表,并修改相应元对象数据表和关系数据库信息。

4 设计实例

在图6中,用数字序号(1)、(2)…(6)代表的是公司的位置信息,如具体的楼房,是构成其他对象最小单位,即元对象,(1)和(2)构成组合对象分公司1,分公司1、分公司2、分公司3构成对象公司A,以次类推。在符合OOSDM对象构建标准基础上,将各对象的各类信息用数据库服务平台管理起来,例如,位置信息数据存储在测绘局数据库服务器1中,注册信息数据存储在工商管理局数据库服务器2中,房产信息数据存储在房产管理局数据库服务器3中,经营信息数据存储在公司数据库服务器4中,同一对象在各数据库服务器中具有相同对象标识码,并按OOSEM的数据存储要求进行存储,同时建立图6的逻辑关系,其关系如表1所示。

在基于OOSDM分布式数据存储过程中,尽量将数据库的数据和功能进行合理划分和分布,尽可能地把各部门经常使用的数据就近存放。不同节点上的数据库系统保持各局部数据库的自治性、数据透明性和完整性。用户对任何数据库的操作就如同在本地执行,不必关心其数据模型、物理位置等细节,它屏蔽了各种数据库在物理上和逻辑上的差异,使用户根据权限用自己所熟悉的一种数据操作语言就能够操纵任何一个数据库[7]。

5 结论

(1)面向对象空间实体描述方法改变了传统的以点、线、面作为基本单元描述空间实体的模式,以元对象和组合对象表达空间实体,空间位置信息成为实体对象的重要属性信息。对象除了具有自己的属性信息外,同时也继承给由它构成的新实体对象,新对象又具有各自的属性信息,解决了空间实体多属性的存储问题。

(2)面向对象模型对元对象和组合对象进行了定义,将空间实体分解为一组相关的简单对象的组合,便于各行各业空间数据库的建立和数据库间建立关联。这一模型既支持现有的GIS数据模型的规范,便于应用环境下软件集成与互操作,又扩充了现有的数据模型,便于网络环境下的空间数据的共享和分布式管理。

摘要:空间数据模型是GIS实现空间数据组织、表达、分析、处理和应用的基础。在对GIS数据模型分析的基础上,探讨了人类对客观地理空间的认知过程。从地理认知的角度提出了面向对象空间数据模型的描述过程、相关定义、对象构建方法、空间数据组织和管理模式,并以公司信息管理为例,设计了公司信息的对象组织模式和构建过程。

关键词:GIS,地理认知,数据模型

参考文献

[1]邬伦.地理信息系统原理、方法和应用[M].北京:科学出版社,2001.

[2]陈述彭,鲁学军,周成虎.地理信息系统导论[M].北京:科学出版社,1999.

[3]李景文.面向对象空间实体矢量模型及其应用研究[D],北京:中国地质大学,2007.

[4]JeremST L.Menus,Donna.J.Peuquet,Liujian Qian.A Conceptual Framework for Incorporating Cognitive Principles into Geographical Database Representation.Int.J Geographical Information Systems,2000,14(6):501~520.

[5]王晓明,刘瑜,张晶.地理空间认知综述[J].地理与地理信息科学,2005,21(6):1~10.

[6]李景文.面向对象空间实体矢量描述方法研究[J].测绘通报,2006(5):~60

基于刻面描述的数据空间原型系统 篇8

计算机的出现及网络技术的发展使得人们之间可以便捷的分享信息,而信息技术的高速发展使得这种信息分享日渐频繁。人们面对不再稳定的信息量,而是不断增长的海量数据。近几十年来,人类社会所积累的数据量已经超过了过去5000年的总和[1]。海量数据由于来源不同,其数据格式的互异,因而很难高效的利用这些数据。传统的文件管理已被证明在大量数据的有效管理上难以应付。作为文件管理的替代者,数据源库管理系统已在结构化数据管理方面战功显著,然而对于非结构化和半结构化数据的管理上却是力不从心。虽然数据集成技术能从一定程度上完成异构数据源的管理,但由于社会性和集成的复杂性使得在很多应用环境下,人们并不清楚“数据集成”的意义是什么,也不知道如何对已经联合在一起的一堆数据进行操作[1,2]。

2005年,在SIGMOD大会上,数据空间[3] 作为一种新的数据管理方式被提出,拉开的数据空间的研究序幕。数据空间作为一种管理异质异构数据的方法,以一种Pay-as-you-go[4,5]的形式对数据源进行管理。区别于关系数据库系统和集成系统,数据空间不需要预先定义数据源模式,即可自动实现数据源的语义映射,从而完成对数据源的管理。同时数据空间具有自动演化功能,能不断的进化以提高用户查询结果的完备性。数据空间是与主体相关的数据及其关系的集合[4],但主体对这些数据不一定具有完全控制权[6]。主体通过数据空间管理系统所提供的各种服务,对数据空间的数据集进行管理。迄今为止,数据空间的研究从数据空间的数据模型[7,8,9,10,11,12,13]、索引和查询[14,15,16,17]、数据关系[18,19,20]、演化及原型系统[17,21,22,23,24]等方面的开展。项目组在数据空间研究的数据源管理、索引及演化等方面的研究成果基础上,实现了一个基于刻面描述的数据空间原型系统。

1刻面描述模型

在软件构件库的分类模式中,刻面分类将对构件描述的关键词置于不同的语境,从而可以从多个视角来观察构件,以此来精确分类构件。在研究中,我们项目组将刻面的概念引入数据空间并将其延伸,通过刻面描述数据源及数据源间的关系,达到从不同角度来观察数据源的目的。在此基础上,项目组提出了一种基于刻面描述的数据空间模型(FADSM)。

通常对数据源的描述是基于属性集合的,即通过属性名和属性值元组的集合来表示。这种表达方式只是将数据源看作简单的属性集合,并没有进一步挖掘出属性之间的关系。我们通过刻面对这些属性进行了进一步的抽象,提取属性之间的关系,并将各个属性划入不同的刻面。在基于刻面描述的概念下,我们通过数据源、刻面和属性来描述数据源。数据源并非单独存在的,它同时与其它数据存在着各种各样的关联,如引用、具有相同的刻面等。因此在对数据源描述时我们不能仅描述数据源内部属性的关系,这还需要引入一个关系集来描述各种不同数据源之间的关系。因此我们通过刻面、属性和关系来描述数据空间中的数据源。

1.1刻面描述模型的定义

综上所述,我们定义如下的数据空间的FADSM模型:

Dsource=(ID,FS,A-VS)

其中,ID是数据源的标识符,表示数据的类别和存储位置,它类似于URL的表示方式;FS是数据源的刻面集合;A-VS是刻面所包含的内容集合,包括了描述这个数据源的所有属性及关系等。图1是FADSM模型图。

在FADSM模型中,属性用来描述数据源对象的特性,例如用来描述文件的物理大小、存储位置、创建时间等,用来描述数据库的表、列等,用来描述网页的URL路径、页面标题等。对于用户对数据源的自定义属性,我们也用来作为对数据源的描述加以使用。刻面是指用户观察数据源的视角,比如一张新闻网页,从文件的角度看,有网页大小、网页存放位置、网页创建时间等属性;从内容的角度看,有新闻标题、报道记者、新闻发生的时间等属性;从网页的角度看,有URL路径、网页标题、网页关键字等属性。本模型则可以为用户提供从这些不同的角度来浏览和查询数据源。

1.2常见数据源初始刻面定义

在系统中,对于常见的数据源,我们设置了初始的刻面集及属性集,便于数据的抽取。可以根据需要增加或修改这些集合。初始的刻面包括Basic基础刻面和Content内容刻面。其中基础刻面描述了数据源基本信息,内容刻面描述了数据内容的相关描述信息。常见数据源(文件、图片、网页、数据库等)的初始刻面集合和属性集合见表1。

系统对加入到数据空间的数据源自动抽取其各个刻面的属性,并为其建立多刻面地描述模式。这样不需要定义数据模式,用户就能对异构异质数据源的管理,实现数据源浏览、查询和检索。

2数据空间原型架构

基于FADSM模型,我们构建了一个数据空间数据源原型系统。数据空间原型系统由三个部分组成:数据空间数据源管理、数据服务和空间演化。其中,数据源管理提供数据空间数据源基本管理功能和数据源的统一集成;数据服务提供数据空间中数据源的索引(刻面索引、关键字索引等)与查询功能;空间演化提供自动集成和数据更新等演化功能。图2为数据空间原型系统的架构。

3数据空间数据源管理子系统

数据源管理子系统是数据源管理部分,它通过对数据空间中异构异质数据源内部及外部属性的自动提取,以Pay-as-you-go的管理模式实现数据源的统一管理,并提供了对数据源添加、删除和浏览等基本管理功能,为将来数据空间索引及空间演化提供了基础。系统主要由5个模块组成,包括显示模块、数据源管理模块、属性存储模块、数据源自动抽取模块和数据源包装模块。数据源管理子系统的设计如图3所示。

1) 数据源包装模块

本模块主要定义了文件、数据库、xml数据源、邮件等数据源的刻面描述信息的访问方法。模块向上提供对异构数据源的元数据信息及内容的访问接口,实现对数据源的统一访问,在后续的新数据源中只需要实现元数据访问接口就这可以保证对新数据源的访问。

2) 数据源管理模块

数据源管理模块提供数据空间中数据源管理的主要功能,完成包括了添加数据源、删除数据源和浏览数据源三个主要业务逻辑。模块实现了数据源加入到数据空间、利用属性提取模块抽取数据源属性、并向显示模块提供数据源刻面描述信息的查询及内部数据的浏览方法。

3) 自动提取模块

自动提取模块包括对数据源外部信息和内容信息的刻面描述的自动抽取及数据源内容的索引。模块根据提供的数据源访问信息判断数据源类型,调用数据源包装模块提供的数据源访问API,获取数据源的刻面描述信息并存储。外部属性的提取主要是针对数据源各种外部描述元数据的提取;对于内部内容信息的抽取,我们通过基于加权重规则统计、贝叶斯分类模型和支持向量机(SVM)模型结合的机器学习方法对标题、作者、关键字、主题和语言等数据信息进行提取。

4) 存储模块

存储模块使用刻面描述模型对数据源以数据源id、刻面、属性三个层次来描述并存储,并提供对这些信息的查询方法。这种存储方式与数据源本身的异构性无关,具有良好的扩展性能,对数据源信息的变更不影响存储的本身结构。同时属性的存储的访问接口提供了对插入数据源属性到属性存储的访问方法,这就保证了属性自动提取模块的相对存储的独立性。

5) 显示模块

本模块提供用户将数据空间外部的数据源加入到管理子系统中、数据空间内部数据源移除、数据空间管理等操作的用户界面;并提供对数据源刻面描述信息的浏览(数据源的刻面名、刻面集合等)及数据源内容查看的界面。

4数据空间的索引

在基于刻面的数据空间原型系统中,我们提供了两种索引方法。一种是针对数据源内容的关键字索引;另一种是针对刻面的刻面索引。

4.1BIU关键字索引

数据空间由于数据结构的异构性,在数据空间中只通过进行结构化查询,显然是不切实际的。因此,数据空间与搜索引擎一样更倾向于基于关键字的查询。常用的关键字查询是基于全文的关键字索引,一方面数据量巨大,另一方面查询结果由于忽略了数据间的语义信息,精度并不高。为此在数据空间原型系统中我们使用了一种改进型的关键字索引-BIU关键字索引。它通过对数据源进行预处理,利用数据源获取元数据信息,确定数据间的各种语义关系,过滤掉数据间无关或关联较弱的信息,找出数据空间中相互关联的数据源所构成的基本信息单元BIU,通过这个基本信息单元来构成数据源间的语义关系。基于BIU的关键字索引流程见图4。

4.2基于刻面的索引

前面提到过,刻面是为提供用户从不同角度观察数据源。在刻面模型描述下的数据源可以看作一棵树。数据空间的刻面索引方法就是通过对数据空间所有数据源树从数据源结点到刻面结点进行编码,这样使得每个数据源、刻面结点和属性结点都有自己唯一的ID。

刻面索引的编码过程是:首先对数据空中从数据源层、到刻面层、再到属性名层、最后到属性值层,分别进行编号;接着根据编号从祖先层至子孙层(即从数据源、刻面、属性名和属性值)分别进行编码,并记录各个结点的层次,其中子结点的编码在父结点编码后面接上子结点的自有编码构成;最后就可以进行刻面索引了。刻面索引的逻辑存储模型如图5所示。

刻面索引的逻辑结构如下:(1) 属性值表,它包含属性关键词、编码、词的索引项在索引文件中的偏移量;(2) 文件频率列表,是指出现某个属性关键词的文件名的列表以及出现的次数;(3) 刻面列表,每个文件包含其对应的刻面编码信息,且与文件频率列表相连接。

5数据空间的演化

在数据空间的演化方面,本项目组目前主要在数据的更新、实体自动集成和发现数据源之间的关系这两个方面进行了探索。发现数据源之间的关系这方面的研究主要从分析数据源的内容和分析用户的活动记录入手。目前原型系统尚未实现实体自动集成和通过分析数据源的内容发现数据源关系的功能,所以,下面仅介绍基于用户活动的数据源关系发现。

人类活动反映了人内心为实现心理目标而努力的过程。那么,用户在数据空间中的对数据源的一切操作行为,都反映了用户为完成目标查找具有一定关联关系数据源的过程。据此,项目组提出了根据用户行为活动分析,发现数据源间关系的空间演化过程。

我们定义的活动是用户计算机当前活动窗口。活动的信息包括:活动产生的时间和活动窗口标题。基于活动的数据源关系发现,通过四方面来度量两个活动的相关性:语义相似性、活动内容的交互相关性,切换相关性和时间序列相关性。语义相关性指活动标题的语义相关度,通过本项目组研制的一个基于中英文WordNet的词语相似度计算工具对活动标题进行相似度计算,记为RV。活动内容的交互相关性是根据用户活动窗口内容交互(窗口间的复制、粘贴等行为)计算完成,记为RC。用户在查找数据资源时会在相关资源间来回跳跃,切换相关性就是依据这些跳跃频度进行计算,记为RS。根据计算机任务调度的理论,一个任务在短时间内被调用的概率较大;同样两个活动在一个越短的时间段内同时出现,则它们的相关度也大。时间相关度是指两个活动在一个时间段内同时出现的相关性,记为RT。一般用活动是具有连续性,在基于用户活动的数据源关系发现中,我们时间间隔划分上是以一个较长的时间间隔作为分隔点。数据空间中基于用户活动的数据源关联计算如下:

AS(ai,aj)=ωV·RV(ai,aj)+ωC·RC(ai,aj)+

ωS·RS(ai,aj)+ωT·RT(ai,aj) (1)

其中,ω表示各个相关性的权重,∑ω=1。

6实验

项目组实现的数据空间原型系统的系统界面如图6所示。最上层是系统的菜单栏和工具栏,提供数据空间原型系统的基本功能的入口(包括数据源添加和删除、数据源索引、数据空间配置等功能);左边树型结构区域是数据空间中数据源树型浏览区,提供数据空间中所有数据源的浏览入口;右边窗口上部是数据空间的查询入口,提供数据源空间的关键字查询;右下部是内容显示区,提供数据源内容、关键字查询、基于用户活动的查询结果等内容的显示。

图7展示了数据源加入数据空间的过程,用户通过菜单栏中的数据源菜单下的添加数据源菜单,进入数据源添加窗口。窗口提供了多种异构数据源的添加功能,用户只需要选择相应的数据源,并提供访问时所需要的连接信息。点击确定后,系统将在后台自动抽取数据源刻面信息,并对数据源内容进行索引。

图8是数据空间的查询结果。结果上半部分是基于索引的关键字查询结果,结果包括pdf文件、word文档、xml数据源等含有关键字“数据空间”的数据源;结果的下半部分是基于用户活动的关联数据源查询结果,当选中一个查询结果中的数据源后就会显示与数据源具有活动相关性的其它数据源,同时用户也可以纠正,系统计算的活动相关性结果,使其优化。

7结语

本文提出了一种基于刻面描述的数据空间数据源描述模型(FADSM),并在此基础上根据数据空间原型架构构建了一个数据空间原型系统,实现了对数据空间中异构异质数据的统一管理。实验表明,FADSM模型实现了对异质异构数据源的存储表示,满足了数据空间对异构异质数据源的统一管理的要求。数据空间原型系统通过预先对数据源的基础刻面的抽取实现了数据源的基本管理功能;同时它又提供了基于数据源内容的关键字索引和基于刻面的索引方法;在数据空间演化方面,系统通过分析用户在数据空间中的活动,深层的挖掘数据源间的关系,为用户提供更强大的服务。下一步,将对空间中数据源变化的监控及数据源信息的刷新,实现数据源中的实体集成及根据数据源内容的发现数据源关联关系。

网格环境下基于本体的资源描述 篇9

网格这一术语,有时与网络、高性能计算基础结构同义使用,网格计算环境能够大规模共享资源和服务,这些环境为很多组织机构实现分布式应用、获得高水平的执行和可利用提供了有效的解决方法。网格环境的基础设施可以被理解成是一系列服务,它的体系结构可以看成是面向服务的,其中的两个实体有特殊重要性:服务的生产者(所有者)和服务的消费者。所有者提供服务,使消费者必须满足一定的限制才能进入网格环境。消费者可以是一个用户,一个机构或者是属于另一个机构的一个应用程序。但是,对于普通用户来说,利用网格环境是一项复杂的工作,需要了解如何从虚拟组织中获取需求的预备知识。为了提高网格资源检索和选择的效率,我们提出利用本体作为选择方法来帮助用户方便的利用网格资源。

在本文中,首先我们构建了为网格资源提供更多精确信息的本体,然后利用已经定义的本体创建一个网格服务,方便用户和应用程序之间利用基于本体的服务实现直接的互操作,提高资源的可利用率。

2 本体概述

近年来,本体的概念被越来越多的应用于计算机知识工程领域,研究者已经从不同的角度和方面为本体的概念进行了定义。尽管定义有多种方式,但是从内涵上来看,研究者都把本体当作是领域(可以是特定领域,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即有本体提供一种明确定义的共识。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。

2.1 本体的建模元语

Perez等人认为本体可以按分类法来组织[1],他归纳出本体包含5个基本的建模元语(Modeling Primitive):

1)类(classes)或概念(concepts),概念的含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推理过程等等。

2)关系(relations),关系代表了在领域中概念之间的交互作用。形式上定义为n维笛卡儿乘积的子集:R:C1×C2×…×Cn。如:子类关系(subclass-of)。

3)函数(functions),函数是一类特殊的关系。在这种关系中前n-1个元素可以惟一决定第n个元素。形式化的定义如下:F:C1×C2×…×Cn-1→Cn。例如mother-of关系就是一个函数,其中mother-of(x,y)表示y是x的母亲,显然x可以惟一确定他的母亲y。

4)公理(axioms),公理代表永真断言,比如概念乙属于概念甲的范围。

5)实例(instances),实例代表元素,从语义上讲实例表示的就是类的对象。每一个概念都会有相当多的实例,而每个实例对应与概念中的属性值也各不相同。

在实际的应用中,不一定要严格地按照上述5类元语来构造本体。同时概念之间的关系也可以根据特定领域的具体情况定义相应的关系,以满足应用的需要。

2.2 本体在应用领域的作用

本体不仅是知识工程和人工智能研究的一个重要问题,而且在知识管理,信息检索,电子商务,自然语言处理等领域的应用都很广泛[2,3,4]。其主要作用表现为:

1)本体提供了一种结构化的表示领域知识的形式化方法。在本体中,明确说明了领域概念,及概念之间的关系,并且支持对领域规则的描述,是领域知识的形式化表示。

2)本体提供了独立于应用的描述方法,使其可以在不同系统之间重用,提高了知识重用的层次。通过使用元属性对属性进行分析,并对属性提出了一种针对本体建模概念化分析的形式化方法,解决了知识共享中的一些问题,不但使开发人员减轻工作负担,提高效率,而且有效地促进了来自不同领域的研究人员和组织间的交流。

3)本体为人和主体之间的沟通和交流提供了共享的基础,也方便了不同领域的系统开发人员和研究人员之间的沟通。它是人机在语义上交互的最好的基础。

3 基于本体的网格资源描述

3.1 开发本体

开发本体最主要的任务是探索如何描述与网格计算资源有关的概念,因此,我们寻找那些被团体共同使用的词汇以及网格体系结构中广泛使用的资源。调查之后,我们创建了需要建立本体的证据资料:

1)数据字典收集本体中所有的类和实例,以及他们的含义。本论文中,初步设计了14个类(图1),其中计算资源是该本体的超类,其他类均是他的子类。

2)概念分类树以树的形式描述所有类和子类之间的关系,所建立的概念分类树如图1所示。

3)类和实例的属性表描述了每一个类和实例的所有属性,包括:关系逻辑、最小值、数据类型、度量单位等。

4)实例表描述了本体中每个实例的属性及取值。

5)属性分类树以图形来描述属性之间的分类关系。图2是参考了属性操作系统类型和体系结构而创建的属性分类树,属于操作系统、体系结构和超级计算机。

然后使用Protégé2000编辑器,将上述证据资料转换为OWL语言进行描述,使用PAL创建公理。图3所示的公理是一个进入限制:必须是AIX操作系统下的计算资源,而且硬盘空间大于80G,内存大于512M才允许发生。

3.2 基于本体的网格体系结构

本文提出的本体直接工作在网格环境中,对资源的查询使用本体中定义的词汇。这样使所有应用中的概念(资源请求者和资源提供者)关于信息的表示和查询均有一个确切的意义,消除了查询和读取信息时产生的模糊性。引入本体后的网格架构如图4,将本体理解为网格结构中的一个特殊层,应用请求来到模型中的本体部分,本体部件利用元数据和语义视图获得与计算资源有关的信息。元数据和语义视图辅助本体获得资源请求者请求所要的答复。元数据部件直接从资源和数据文件中获得信息,另一方面,语义视图与元计算目录服务器通信,该服务器提供了接近网格和系统部件相关资源的分布式方法。图4表示的是在网格环境下,用本体方法获得信息的一个必要数据流。

3.3 基于本体的服务

我们开发网格服务[5],提供本体与请求者之间的必要交互。服务允许请求者进入本体和网格环境。因此也就需要开发一个应用程序实现服务与本体的交互,该应用程序操作那些被服务允许使用的本体中的构件。应用程序用Java语言实现,用Protégé2000编辑器中的APIs直接获得本体的实际概念。为了满足所有服务的需求,应用程序设计了三个模块。模块一,显示本体中定义的所有类和实例的列表单。请求者利用这些类与实例的名称请求下面两个模块的元数据和计算资源;模块二,帮助请求者查明模块一中所列类的元数据;模块三,直观的显示所搜索计算资源的完整配置。只需要输入计算资源的名称就可以完成这次搜索,计算资源被作为类的一个实例加以区分,这些信息在模块一中提供,是进入网格环境的必要条件。

在创建了应用程序之后,便有效的完成了目标服务。提供此服务后,用户就可以通过友好界面进入网格环境。在新的网格环境中,计算资源被更精确的描述。另外,由于服务引入了本体技术,新知识可以在任何时候不受限制的通过应用程序加入到服务中,而新数据的加入不会影响服务的实现,只需修改资源的相关数据即可。

4 结束语

在本论文中,我们提出利用本体对网格计算环境中的可获得资源做描述,构建了一种基于本体的服务帮助用户实现他们的应用。这项研究具有以下优势:一方面,利用本体构建共同的领域概念,能够被网格环境中的普通用户所共享。另一方面,本体技术能够加强不同虚拟组织之间的互操作性。

摘要:该文首先介绍本体的概念并分析本体在应用领域的重要作用,然后针对网格环境中的资源描述和选择问题,构建了能够精确描述网格资源信息的本体,并利用构建的本体创建了网格服务,方便用户和应用程序之间利用基于本体的服务实现直接的互操作,提高了网格资源的可利用率。

关键词:本体,网格,资源描述,本体构建,本体服务

参考文献

[1]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[C].//Stockholm V R,Benjamins B,Chandrasekaran A,et al.Proceedings of the IJCAI-99workshop on Ontologies and Problem-Solving Methods[KRR5]1999:1-15.

[2]赵波,陶跃华.本体论及本体论在计算机科学技术中的应用[J].云南师范大学学报:自然科学版,2002[6]:5-7.

[3]蒋明艳,郑丽英.本体技术应用研究[J].科技咨询导报,2007[16]:9-9.

[4]孙颖,倪天权,王东升.网格与本体协同的心血管疾病领域本体的构建[J].科学技术与工程,2008.8[7]:1707-1711.

数据资源描述 篇10

商业信贷管理信息系统是连接征信系统, 贷款提供者, 贷款需求者, 第三方工具提供者等商业信贷参与方的信息链条。建立无歧义的, 能够让系统成员都能够理解的数据是十分重要的。为了加强信息的表示, 建立一种能够映射系统参与方所使用的数据, 并根据业务变化可扩展和推理的标准化的数据组织方式是十分必要的。本体是应用于信息管理领域中的重要方法, 它将问题领域中的对象抽象成概念和概念间的关系, 使用形式化的方法表示这些概念, 使得计算机能够接收并处理, 加强异构系统用户对数据的共享[1]。描述逻辑利用概念和规则符号将问题领域中的原子概念和规则表示出来, 定义良好的语义和表示能力, 并具有基于逻辑的推理能力, 是目前应用比较广泛的本体描述原语, 成为OWL-S等标准本体描述语言的语义基础。本文将引入可以跨平台, 并且可根据用户需求, 扩展语义的基于本体的元数据表示模型, 表示贷款业务参与方之间交互的异构信息。

1 商业信贷管理系统结构

商业信贷系统包括核心业务功能和辅助业务。核心业务包括接收贷款申请, 抵质押品管理, 贷款合同的签订, 贷款档案的管理, 归还贷款本息等内容。辅助业务为核心业务提供支持, 以规避贷款拖欠风险, 提高贷款效率为目的。辅助业务包括信用审核, 还款能力的审核, 用款活动开展情况的检测, 抵质押品价值的评估, 还贷催收, 还贷风险评估, 行业分析等内容。辅助业务的执行需要同信贷机构以外的相关单位发生数据的交换。比如, 评估还贷意愿, 需要查看银行等征信机构的信用信息, 还需要从工商, 税务, 电信, 等部门获取贷款者的信用经历信息。为了最大限度的发挥核心业务, 信贷机构从第三方服务提供者处获取服务, 如信用等级评价, 不同行业的贷款风险评估, 抵质押品管理等。

2 基于描述逻辑的本体表示

2.1 本体的表述

基于面向对象的思想, 本文将本体表述为:

式中:C表示由问题领域中的名词概念抽象出来, 具有相同属性和行为结构的概念类的集合;CP表示类的属性声明, 属性为类的静态特征;CE是问题领域中概念类的实例的声明, 实例的属性用CEP表示;R表示问题领域中的关系, 类与类之间可以具有某种关系, 关系也可以成为新的类, 即关系类, 关系是由问题领域中与名词概念在同一层次的动作概念抽象而来, 关系也具有相应的属性, 用于描述关系的特征;RP表示描述关系的属性;RE表示关系的实例;REP表示关系实例的属性;H表示问题领域中所使用的计算工具, 公里, 定理等内容;X表示属性的约束和限制。

2.2 基于描述逻辑的本体元数据表示

(1) 基本的逻辑符号。

在描述逻辑中提供了基本的逻辑原语用于表示复杂的概念和关系。如:“∧”逻辑与、“∨”逻辑或等为基本的逻辑关系符号;“→”逻辑蕴涵、“”逻辑等价、“≤”上限基数、“≥”下限基数、“M”包含于等扩展的逻辑关系符号;PartOf, InstanceOf, SubclassOf等表示组合等逻辑关系。

(2) 原子类和复合类。

问题领域中, 类可以分为原子类和复合类。原子类是指不可以再分的类, 用符号{C}表示, 复合类由原子通过逻辑连接符号连接而成。如, C, D表示原子类, 复合类MC∧D, 表示原子式C和D通过“∧”操作形成复合类M。

(3) 类的属性。

在问题领域中, 类的特征是通过属性表述出来的, 一个类可能具有多个属性。类的属性之间通过“逻辑与”符号链接, 表示属于同一个类。<{C}, {C.p1∧C.p2}>, 式中C表示概念类, p1, p2表示类具有的属性。如果C是由多个原子类复合而成, 则原子类的属性自动变成C的属性。

(4) 类的实例及其属性。

为了更清楚的表示概念类的实例, 可以使用C (E) 表示概念类C的E实例, 可将类的实例形式化为:<{C}, {C.p1∧C.p2}, {C (E1) , C (E2) }, {C (E1) .p1∧C (E1) .p2 , C (E1) . p1∧C (E1) . p2}>, 其中, C (E1) , C (E2) 表示对象类C的E1, E2实例。实例同对象类一样, 也可以通过逻辑联结符合进行扩展或组合。如C (E) = (M∧N) (E) , 其中, 概念类C是由M和N复合而来。

(5) 定义关系及其属性。

在问题领域中, 类与类之间的使动行为用关系来表示。对象类之间的关系用小写的字符表示, 如:<{P M Q∧r1, Q M Z∧r2.a}>, 表示概念类P与Q之间的关系为r1, Q与Z之间的关系为r2, r2具有属性a。关系实例为对象类之间联系的具体实现。其定义方法同对象类实例的定义方法相同。关系的实例表示具体的关系。比如张强是张红的父亲。

(6) 定义属性约束和限制。

约束主要包括域约束和范围约束, 域约束是指该属性仅对什么类有效, 而范围约束则是指该属性的取值属于哪个类的实例、或哪种类型的数值等。

3 本体元数据在商业信贷系统中的应用

3.1 建立商业信贷系统数据模型

商业信贷系统数据模型的分析是建立本体元数据的第一步, 可以明确指示出参与商业信贷活动的各个行为主体, 以及主体间交换的数据。通过对数据模型的完全解析, 对于问题领域中相关概念的提取和概念类的抽象, 有着重要的作用。商业信贷系统的数据模型可描述如图1所示。

由于篇幅限制, 本文所只列出的商业信贷系统一级数据模型。商业信贷管理可以分为贷款申请提交和审核, 签订贷款合同, 贷款档案管理, 业务检查, 还款等几个阶段。在贷款申请审核中, 需要审核贷款者基本信息, 信用信息, 还款能力评价, 贷款申请提交和审核阶段, 需要审核贷款者家庭信息, 财务信息, 工作信息, 信用信息等内容;款审核通过后, 将签订贷款合同, 建立贷款档案;签订贷款后, 将根据行业信息观察用款情况, 催收余款。

3.2 从问题领域的抽象出相关概念类

经过对商业信贷管理系统问题领域的分析, 按照其所承担的业务角色, 可以将其分为参与人, 关系, 信贷机构, 规则, 单据, 抵质押品, 信用, 报表, 工具, 贷款产品等概念类, 以及提供, 处理等关系类。参与人是指除信贷机构以外的信贷活动参与者, 如贷款个人, 贷款企业等;关系是指贷款人之间, 参与贷款活动的成员之间, 或贷款人与贷款机构之间的关系;信贷机构是指贷款的提供方, 信贷机构需要对参与人提供的信用信息, 抵押制品, 身份材料, 报表等进行审核。规则是由信贷机构所制定的规范贷款人行为的各项规章制度, 如拖欠还款的惩罚措施等。表单是指贷款人为取得贷款和保证按期返款所提供的各种材料, 如贷款申请等。抵质押品是由贷款人或担保人所提供的房屋等有价担保品。信用是来源于银行, 税务, 信贷机构等单位的能够证明贷款人信用履历的材料。报表包括行业分析, 业务分析, 财务报表等用于预警贷款风险的数据分析材料。工具包括用于信用评价, 抵质押品价值评估, 风险控制, 行业与业务分析等活动所使用的方法与工具。贷款产品是信贷机构根据贷款人特点所设计的各种贷款策略。处理关系类是参与人与信贷机构等概念类之间所发生的各种关系, 包括贷款申请的审核, 抵质押品评估, 贷款能力评价, 业务状况评价, 贷款者分类等各项活动。提供关系类是参与人所提供的各种申请, 材料, 报表所进行的操作。商业信贷管理问题领域的概念抽象如图2所示。

3.3 基于描述逻辑的信贷本体构建

根据问题领域中抽象出来的概念, 结合描述逻辑的逻辑原语, 将商业信贷领域中的概念类和关系类, 及其属性和关系分配集声明如下:

(1) 概念类和关系类的声明。参与人概念类可以声明为:<参与人{ (贷款人) , (担保人) }>, 贷款人, 担保人为参与人的子类。贷款人和担保人还可以派生出贷款个人和贷款企业, 担保个人和担保企业。如果A企业是贷款人, 则可将其声明为概念类贷款企业的实例<贷款企业 (A) >。

关系概念类可声明为: <关系{ (担保) , (家庭成员) , (机构成员) }>。担保类可派生出担保人, 担保机构;家庭成员可派生出妻子, 父母, 子女等亲属;机构成员可派生出股东, 总经理, 法人代表等机构职位。

信贷机构可声明为:<信贷机构{ (银行) , (贷款公司) }>, 因为在商业信贷系统中, 信贷机构主要指提供贷款的银行, 贷款公司等机构。

表单概念类是商业信贷管理系统中重要的本体元素之一。表单类可声明为:<表单{ (申请) , (合同) , (档案) , (单据) }>, 申请类可派生出<{ (贷款申请) , (还款申请) <{ (全额还款申请, 提前还款申请, 部分还款申请) }>>等子类, 合同类可派生出贷款合同子类, 档案类可派生出贷款档案等子类, 单据类可派生出<{ (抵质押品单据) , (业务调查单据) , (还款记录) }>等子类。

规则概念类声明为:<规则{ (信用等级评价规则) , (贷款分类评价规则) , (担保方式) , (还款方式) , (贷款检查规则) , (档案管理规则) }>等。

报表概念类可声明为:<报表{ (行业分析报表) , (业务分析报表) , (还款能力分析报表) }>

工具概念类可声明为:<{ (信用评估工具) , (风险控制工具) , (行业分析工具) , (业务分析工具) }>。

抵质押品类的声明, 将最常见的抵质押品单独声明, 而其他形式的抵质押品归为其他类。如:<抵质押品{ (房屋) , (汽车) , (其他) }>。

处理关系类是发生与概念类之间的关系。主要发生于信贷机构类和参与人类之间, 处理关系类可声明为:<处理{ (审核) , (评估) , (检查) , (预警) }>等处理。审核类可派生出贷款申请审核, 信用审核, 业务审核的子类;评估类可派生出抵质押品评估, 还款能力评估, 业务绩效评估等子类;检查类可派生出业务检查, 还贷检查等子类, 评估可派生出信用评估, 还款能力评估, 风险评估等子类, 预警类可派生出拖欠还贷预警, 风险预警等子类。

(2) 属性的声明。属性是描述对象特征的重要元素。每个概念类和关系类都具有相应的属性。子类除了继承了基类的属性之外, 还会派生出新的属性。统计属性的工作量比较大, 本文不可能一一举例, 现仅以贷款个人为例说明, 其属性可声明如下:

<{贷款个人.个人信息∧贷款个人.家庭信息∧贷款个人.教育信息∧贷款个人.健康信息∧贷款个人点居住信息∧贷款个人.联系方式.贷款个人.经济信息}>

其中个人信息, 家庭信息, 健康信息等是描述贷款个人特征的属性集合。根据需要, 也可声明为概念类。因此可知, 类的某种概念类可声明为另一种概念的属性。

(3) 公理与工具。公理与工具的声明同概念类声明集中的工具概念类不同。工具概念了是商业信贷系统, 根据自身特点和业务属性所定义的工具。而公理与工具声明是信贷系统所使用的, 已经被广泛采纳的, 具有一定标准的通用的公里和计算工具。

(4) 概念类间的逻辑表示。通过对信贷问题领域的分析, 可以抽象出原子概念类, 在实际应用中, 原子类不可能表示出所有问题, 有时需要与其他原子类逻辑连接, 来表示更复杂的概念。我们以贷款流程的本体描述为例来说明概念类间的逻辑表示。已知原子概念类和关系类声明为:人员 (Person) 、表单 (form) 、报表 (paper) 、机构 (unit) , 规则 (rule) , 提供与审核 (offerandaudit) , 处理 (Handle) 等关系类。其业务关系为:贷款人 (persion (loanperson) ) 向信贷机构 (creditunit) 提供 (applyto) 贷款申请 (Form (apply) ) , 被信贷机构 (creditunit) 使用面向相关业务的工具或方法 (Method) 审核 (Handle (audit) ) 申请, 签订贷款合同 (Form (Contract) ) , 贷款人按照合同规定, 向信贷机构 (creditunit) 支付 (pay) 利息 (interest) , 在规定的期限内归还 (repay) 贷款, 信贷机构 (creditunit) 对业务进行审核 (Handle (audit) ) , 控制风险。

源元数据中的原子类总结为术语和关系的集合。{ (Loanperson, Creditunit, Form (Contract) , Method, Mortage) , (Handle ( applyto, credit) , pay}

则术语之间的关系可表示为:

{ (Person (Loanperson) M ∃.applyto Form (apply) , Person M ∃.apply mortage, Creditunit .audit Form (apply) ∧Method, Person (loanpersion) M∃.pay interest∧.repay Mortage}}};

(5) 本体间推理的描述。本体的一个最重要特征就是推理。通过逻辑符号, 可以表示本体元素间的推理。在信贷本体中, 概念类间可以通过关系类结合, 形成新的类, 来表示业务逻辑。如上文所述, 商业信贷问题领域中包含关系类处理中包含有审核关系类。具有审核贷款申请, 评价信用和还款能力等逻辑功能。将贷款申请审核关系声明为Doapply, 信用评价关系声明为Docredit, 评价还款能力声明为Dorepayability。贷款申请Doapply具有布尔类型的属性“是否通过”, 声明为Ispass, 如果没有通过则为⎤Ispass;信用评价关系需要借助规则类中的信用评价等级规则, 即ruleauditclass, 信用评价关系可声明为Docredit∧RuleAuditClass.value (n) , value表示信用评价等级的值, 括号中的数值表示等级数。还款能力评价表示为Dorepayabilit∧RuleRepayAbityClass.value (n) , RuleRepayAbilityClass表示还款能力评价等级。因此, 对于某贷款人贷款申请的批复可声明为Loanpersion∧Doapply.IsPass≡{Docredit∧RuleAuditClass.value (≥3) ∧Dorepayabilit∧RuleRepayAbityClass.value (≥2) }, 表示贷款人如果获得贷款申请通过, 必须信用等级评价超过3级, 还款能力评价在2级以上。

通过上式可以把概念类之间的逻辑关系转化成逻辑推理公式, 可以通过逻辑推理运算, 完成商业信贷问题领域中的逻辑推理。

4 结 语

通过以上的形式化描述, 即将商业信贷系统资源元数据的概念术语, 术语的属性, 术语类间的关系描述出来, 通过形式化元数据的交互, 实现资源数据信息的共享。同理, 可将其他数据资源形式化描述出来, 在商业信贷成员间无歧义的共享供业务信息。

参考文献

[1]COYL Karen.Unerdstand metadata and its purpose[J].Management Technology, 2005.4:160-163.

[2]张宇, 蒋东兴, 刘启新.基于元数据的异构数据集整合方案[J].清华大学学报, 2009 (7) :1037-1041.

[3]林小晶, 杨立, 左春.支持动态标准的政务元数据管理的研究与应用[J].计算机工程与设计, 2008, 29 (3) :109-112.

[4]Giunipero Larry C.Purchasing supply chain managementflexibility:moving to an entrepreneurial skill set[J].In-dustrial Marketing Management, 2005 (3) :602-613.

[5]MOVVA Sunil, RAMACHANDRAN Rahul.Syntactic andsemantic metadata integration for science data use[J].Com-puters&Geosciences, 2005 (5) :1126-1134.

[6]HUA Zhong-sheng.Impact of demand uncertainty on sup-ply chain cooperation of single-period products[J].Interna-tional Journal of Production Economics, 2006 (10) :268-284.

[7]WY Yan-ni.Extending metadata with scenarios in adaptivedistributed system[J].Journal of Network and ComputerApplication, 2007 (5) :1283-1294.

[8]史春景.基于本体的车间业务流程知识分析及表达[J].东北大学学报:自然科学版, 2010 (3) :422-427.

[9]温立.基于辅助决策的应急事件本体模型研究[J].情报杂志, 2010 (2) :132-136.

[10]刘汉兴.基于本体的自动答疑系统的研究与实现[J].计算机应用, 2010 (2) :415-419.

上一篇:英语课堂教学游戏化下一篇:露天铁矿