语义查询

2024-06-20

语义查询(精选六篇)

语义查询 篇1

随着互联网技术的发展,Web成为全球化的信息资源。搜索引擎为用户提供了友好的检索界面。通过它,人们可以轻松地知道世界各地正在发生的事件,Web网已经融入了人们的日常生活中。与此同时,信息增长速度太快,人们无法从大量的信息中快速定位到自己感兴趣的资源,常常被大量无用的信息困绕。出现这种情况的原因在于Web网的资源缺乏语义信息,现在的搜索引擎大多是采用关键词的匹配等技术,而这种匹配通常是形式上的匹配,如果用户没有清楚地表达出自己的意思就很难查到自己想要查找的资源。而且,由于是要求形式上的一致,导致没办法查出那些“神似”而“形不似”的信息,即那些反映了用户查询请求但却没有包含关键词的资源被漏查。

为解决这个问题,互连网之父蒂姆·伯纳斯·李提出了语义网的概念。语义网中语义的核心就是知识共享。即发现各个资源之间的隐含联系,把资源有效地组织起来,从而轻松、精准地找到包括个人信息在内的几乎所有完整信息。同时在语义网中,计算机能独立地思考而不是单纯地执行命令。它能明白用户的查询请求,并能根据情况做出判断,给出有效的建议。比如,个性化的金融投资组合,智能系统为家庭勾勒退休养老规划,为高中毕业生提供教育咨询,选择最适合的大学等。

1 国内外现状

目前一些关于本体语义查询系统的模型主要是利用本体中概念规范、语义关系明确的特点,将用户的问题转换为查询请求,通过深层语法分析和浅层语义分析相结合的方式来处理,提取出合适的关键词,增加了对语义信息的理解,有效地提高了查询的准确性。还能对查询的结果进行处理。通过对用户的提问进行分类,将不同的类型对应到不同的模式,从而生成最后用户要找的具体的信息。并提出一些方法来判断用户的满意度。

还有一些研究集中在查询的扩展上,通过本体概念的等价概念,上下位概念,以及属性的一些性质如传递性等来扩展查询条件。由于资源和资源之间的联系是网状的,提出了依据图的遍历方式来搜索出所有相关的资源,扩展查询条件,并采用RDF的三元组方式规范检索关键词,依据本体中的关联重构用户查询需求,以匹配策略实现智能检索,使得查到的信息更加全面。

关于本体的整合方面主要集中在对同一领域的不同本体的整合上。提出了基于普通的本体知识库的能够半自动整合本体的系统。该系统为本体的使用提供统一的接口。它自动地处理整合过程中的一些任务,同时指导用户并依照用户的选择执行整合操作。通过合并本体,使得查询的信息更加完整。

2 本体及wordnet简介

2.1 本体的概述

在语义处理的过程中存在着同一概念有多种词汇表示以及同一词汇有多种概念的现象。虽然XML和RDF可以为语义网中的资源提供一定的语义,但由于XML中的标签及RDF的属性集缺乏限制等问题,不能完全解决上述问题。于是为了消除上述语义的不确定现象,本体的概念被引入到了计算机领域。

本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(或术语、符号等)之间相互关系的明确定义。

由于本体有如此强大的功能,本文所提出的系统模型采用本体来组织信息资源。

2.2 wordnet简介

wordnet是一个英语字典,它包含了语义信息,有别于通常意义上的字典。wordnet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset。wordnet为每一个synset提供了简短而概要的定义,并记录了不同synset之间的语义关系。同时,它还提供了反义词信息,以及上下位关系。

本文提出的模型是用wordnet来进行关键词的同义词的查找,使得本体在构建的时候不必考虑等价概念的问题,从一定程度上简化了本体。并通过wordnet提供的上下位关系,将新的概念插入到本体中,从而完成了本体的动态完善。而且wordnet提供的反义词集,对于本体查询的扩展有一定的帮助,使用户能找到更多感兴趣的信息。

3 基于本体的语义查询系统模型

3.1 语义查询系统需要解决的问题

(1)便于用户从大量的信息中找出所需的信息,过滤掉无用信息。同时还要查找到那些符合用户查询条件但由于形式上不匹配而被淘汰掉的信息。即让计算机能从语义上“理解”用户的查询条件并做出扩展,提高信息的查准率和查全率。

(2)由于用户不了解本体里的概念,输入的关键词未必能匹配本体中的概念,而该关键词实际又是本体中某个概念的同义词,则应找到本体中对应的概念,查出用户所需信息。若该关键词与本体中的概念存在上(下)位关系时或是本体中没有与之相关的概念时应完善本体。

(3)查找同义词的过程影响查询速度,应提出改进办法。而对于那些匹配失败,同时又不是本体中概念的同义词的关键词,本体在查询结束后进行了自我完善,不会给下次查询带来影响。所以,作者认为应该对同义词的查找部分进行处理来提高速度。

3.2 语义查询系统的结构模型

模型结构如图1所示。语义查询系统由用户输入模块,查询处理模块,本体完善模块,wordnet,关键词快速查找表以及本体和Internet构成。其中本体部分采用的是某个领域的本体。但并不意味着系统只能处理这个领域的知识。系统提供了本体加载接口,适合于所有领域。

(1)用户输入模块

用户输入模块功能主要是用户输入关键字以及返回查询结果。同时还要和查询处理模块做一些交互便于查到的信息更全更准。

(2)查询处理模块

查询处理模块接收到用户的输入后,其处理过程如下:

①本体中有对应的概念

若在本体中找到了与之对应的概念则直接取出该概念相关的所有的实例返回给用户。若不存在,则首先在关键词快速查找表中查找是否存在该关键词的信息。如果找到了相关记录,则根据表中的信息对应到本体中相应的概念集及相应解释,用户根据需要选择概念后,返回查询结果给用户。为了保证能准确理解用户的含义,系统需要同用户交互,若对结果不满意,则按照查找表失败处理。

若查找表失败,则在wordnet中查找该关键词,返回同义词集及每组同义词集的解释后,让用户选择一个与他查询意思一致的解释,然后再用该解释对应的同义词组匹配本体中的概念。若能找到对应的概念,则说明用户输入的关键词是本体中某个概念的同义词,此时,应取出该概念所对应的所有实例返回给用户。同时,向关键词快速查找表中插入记录,建立该关键词和本体中对应概念之间的关系,便于下一次更快地查到用户所需的信息。

②本体中没有对应的概念

若用户所选的解释对应的同义词组在本体中没有找到与它对应的概念,则说明本体需要被完善。首先在wordnet中查到与该关键词一致的所有上位词集和下位词集及解释,然后让用户选择一个与他查询请求一致的解释,用该解释对应的同义词组去本体中匹配。匹配成功,则说明该关键词是本体中某个概念的父(子)概念(选择的是上位词集的某个解释并匹配成功,则为父概念。若是下位词集的解释并匹配成功,则是子概念)。若匹配不成功,则说明应在本体中添加一个新类。最后把相关信息传递给本体完善模块。

若查找到了对应的概念,则在返回查询实例集的同时,还应返回该概念的所有父类概念和子类概念,以及该概念的对象属性和数据属性等扩展信息。若用户还需进一步的查询,可通过选择这些概念或概念和属性的组合来扩展查询条件,从而查到与用户原意最匹配的信息。并且还可以通过这些扩展信息查到用户感兴趣的其他的信息,大大地提高了用户的满意度。

(3)本体完善模块

本体完善模块获得本体完善信息后,处理过程如下:

①关键词是本体中某个概念的子概念或父概念

将关键词作为一个概念加入到本体中,由于本体完善信息中显示该概念是本体中某个概念的子概念(父概念),则应把该概念加入到本体中对应概念的子概念(父概念)处。然后,将该关键词作为字符串在Internet中查找,如用google搜索引擎来查找该关键词。用户从返回的相关网页中浏览信息,最后选择满意的网址返回系统,系统将其作为该概念的实例,添加到本体中。

②关键词不是本体中某个概念的子概念或父概念

将关键词作为一个概念加入到本体中,由于本体完善信息显示该概念与本体中的其他概念不存在父/子关系,于是将该概念作为独立的概念加入到本体中。在Internet中的查找过程以及实例的返回过程同①一样。

由于本体很难在最开始构建的时候就符合用户的用语习惯,所以为了提高查询的效率,需要系统管理员结合关键词快速查找表来发现用户的用语习惯,然后用关键词替换本体中对应的概念。具体的实现思想是:关键词快速查找表中某条记录被访问的次数越多,说明用户越习惯用该关键词而不是本体中对应的某个概念来表示某个意思。所以管理员只需定义一个值,若出现访问次数超过该值的记录,说明其中的概念该被替换掉。此时,给出提示给管理员,若系统中没有相同的概念且管理员也认可,则执行替换。

(4)关键词快速查找表

关键词快速查找表主要用于用户输入的关键词是本体中同义词的情况。因为在这种情况下系统会去wordnet中查找与关键词对应的同义词集及其解释,通过与用户的交互后,再到本体中去查询。这个过程比较耗时,所以,本系统模型设计了关键词快速查找表来记录之前的同义词查询条件及匹配结果,提高查询速度。另外,关键词查找表还为本体完善模块提供信息,告知管理员用户的习惯用语,帮助管理员完善本体。在一定程度上提高了查询速度。

关键词快速查找表的结构如下:

其中,Key_word是用户要查询的关键词,而Conception是本体中与该关键词对应的概念。Meaning为该概念的解释。CTime记录插入的时间。Count记录被访问的次数,初始值为1。对于该表的具体操作为:当用户所输入的关键词是本体中的概念的同义词时,在查询结束后,将相关信息插入到关键词快速查找表中。当用户再次输入同样的关键词查询信息时,首先会扫描这张表,若找到符合条件的记录(即该记录的Key_word与输入关键词相同),则取出对应的Conception字段和Meaning字段的值返回给查询处理模块,同时Count字段的值加1。当某条记录的Count值超过管理员设定的值时,提示管理员需要替换本体概念。若需执行替换,则在替换完本体概念后删除该条纪录。

随着时间的推移,关键词快速查找表必然越来越庞大,这样也会影响查询速度。所以,应该删除掉那些长久没有被访问到的信息。关于淘汰旧记录的方法有很多,本文介绍一种比较简单的方式,即淘汰掉那些CTime比较靠前且Count值小于管理员指定值的记录。因为这说明该记录是很久以前插入的并且被访问到的机会小。

4 结束语

本文提出的基于本体的语义查询系统模型不仅实用,而且容易实现。但对于查询结果的处理比较少,后续的工作是如何在返回的大量的相关实例信息中通过合适的算法找出最符合用户查询需求的信息。如何维护本体信息,本体的存储方式以及如何扩展查询条件,在查到用户所需信息的同时提供更多用户可能感兴趣的信息等。

摘要:由于网络的快速发展,人们每天被大量的信息包围。如何从中找出有价值的信息成为急需解决的问题。而现在大多数搜索引擎采用的是关键词匹配的方式,无法从语义的层面上理解用户的需求,导致查不准和查不全的情况,最终不能满足用户的需求。提出了基于本体的语义查询系统模型,通过本体来组织知识,让计算机能读懂查询条件,同时用wordnet来辅助查询,从而提高信息的查准率和查全率。还提出借助wordnet实现本体自我完善的方法,并增加了关键词快速查找表来加快查询的速度。

语义查询 篇2

关键词:本体,语义扩展,图书信息检索,语义Web,智能检索系统

1 引言

首先分析了基于语义扩展图书智能查询SEBIQR (Semantic-Extension based Books Intelligent Query Research)系统的功能,详细介绍了SEBIQR系统的功能模块组成;在Protégé软件环境之下,使用本体描述语言OWL构建了计算机科学与技术专业领域的本体文件;以创建的计算机科学与技术专业领域的本体作为语义扩展的基础,在Java和MySQL环境下,实现了对原始图书数据的语义扩展查询。

2 相关工作

1990年,Tim Berners-Lee提出了万维网(Web)的概念,其最初的想法是让全世界人们通过互联网获取所需要的信息[1]。针对搜索引擎所存在的不足之处,1998年,Tim Berners-Lee提出“语义Web”(Semantic Web)的概念及其技术路线,他指出语义Web就是首先语义标注数据库中的信息,并能让计算机理解语义标注的数据的含义,实现信息的语义扩展查询[2]。

语义Web主要采用了本体论(Ontology)的思想框架。本体最早是一个哲学范畴,在人工智能界被赋予了新的定义。1991年,Neches等人提出本体是给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义[3]。从本体的概念来分析,本体最明显的特征就是具有明晰的概念层次结构和强大的逻辑推理功能[4]。

3 SEBIQR系统的模块设计

利用软件工程的方法开发SEBIQR系统。首先,进行需求分析,明确SEBIQR系统需要满足的基本要求;随后采取结构化的分析方法把SEBIQR系统分解为3个功能模块,即图书采集子系统、图书处理子系统和图书查询子系统;然后依据SEBIQR系统需要满足的基本要求,把每个功能模块又详细地划分为若干个子功能模块;最后,进行SEBIQR系统的开发和前期测试。SEBIQR系统的总体架构如图1所示。

图书采集子系统:人工采集宿州学院图书管理系统中的图书信息数据,按照图书信息所具有的属性,把图书信息划分成若干字段存储至后台所搭建的关系数据库中,形成图书信息数据库。

图书处理子系统:构建计算机科学与技术领域的本体库,针对所采集的图书信息库中的数据,参照本体库,进行文档的语义标注,形成元数据,并建立索引数据库供图书查询子系统查询使用。

图书查询子系统:用户在前台查询界面输入查询语句,参照所构建的本体库,对用户所输入的查询语句进行语义上下位扩展和语义逻辑推理,随后通过一定的检索程序,使用扩展后的查询词图书信息的索引库中进行查询,最后将检索结果按照一定的排序规则排好序后通过查询界面返回给前台用户。

4 SEBIQR系统的实现

4.1 本体的构建

本体构建是指构建、编辑、维护与开发本体,本体的构建应用了工具本体构建工具Protégé3.3.1,Protégé是使用Java编写的由斯坦福大学Stanford Medical Informatics所开发的一个开放源码的本体编辑器[5]。由于所开发的SEBIQR系统仅仅完成计算机类图书的信息查询,因此开发系统时,只构建了计算机科学与技术领域的本体文件。按照美国计算机协会(Association for Computing Machinery)的CCS(Computing Classification System)对计算机科学与技术领域的分类,将现有的计算机领域分成7个子领域,即计算机科学技术基础领域、计算机工程、计算机系统结构、人工智能、计算机软件、计算机应用和计算机科学技术其他领域,7个子领域的英文表述分别是Computer science and technology based subjects、Computer engineering、Computer Architecture、Artificial Intelligence、Computer Software、Computer Application和Computer science and technology other subjects[6]。在每个大领域下面又会有许多子类,Protégé中所编辑的本体结构如图2所示。

开发SEBIQR系统时,除了定义计算机学科领域英语词汇分类本体,还定义了与计算机学科领域英语词汇分类本体相对应的中文分类本体文件,如图3所示。

语义扩展查询是参照本体库中所定义的词汇之间的关系,对原查询关键字进行语义扩展和推理,形成包含多个语义扩展的关键词,然后去执行查询。SEBIQR系统所实现的语义扩展功能主要涉及同义词汇的扩展查询和上下位词汇的语义扩展,其中,使用OWL中owl:sameas映射同义词汇的扩展,使用rdfs:subClassof表示上下位词汇的语义扩展[7]。

4.2 SEBIQR系统的功能演示

本系统在Java环境下进行搭建(安装配置JDK、安装MySQL级图形界面工具SQLyog、安装服务器Tomact7和E-clipse_j2ee),提供了一个界面友好的查询页面。具体查询步骤是:首先用户可选择任一检索项(图书名称、图书作者),随后在检索文本框中输入查询图书信息相关的关键字,点击“查询”按钮,接着SEBIQR系统根据用户的查询在索引库中快速找出符合用户要求的图书信息,并把结果显示给用户。如图4所示,检索项选择“图书名称”,检索值文本框中输入“程序设计”,会得到图4所示的结果。可以看到“程序设计”经过本系统的语义扩展推理,获取了含有“程序设计”和其下位词汇“C”、“C++”以及“Java的相关书籍,实现了数据查询的语义扩展。

参考文献

[1]叶育鑫,欧阳丹彤.语义Web搜索技术研究进展[J].计算机科学,2010,37(3):1—5.

[2]崔琳.基于语义Web和Web挖掘的Blog智能检索系统研究[D].合肥:合肥工业大学,2008.

[3]司莉,李鑫,邢文明.基于关联数据的书目数据语义化框架设计与实现[J].图书馆,2014,2:72—75.

[4]罗小梅,余高锋.基于二元语义的高校图书馆服务质量评价[J].情报探索,2014,7(201):131—133.

[5]崔琳,汪材印.基于语义Web的Blog智能检索系统研究[J].长江大学学报,2011,8(10):77-79.

[6]朱维乔.基于大数据的图书馆智能门户设计研究[J].现代情报,2014,34(8):83—86.

语义查询 篇3

在软件设计中, 数据库软件占了相当的比重, 而查询功能是每个数据库软件必不可少的。一般情况下, 对于文本字段的查询, 采用SQL语言中SELECT语句, 如果是精确查询则采用等号操作符, 模糊查询时采用LIKE保留字。在设计时, 通常为确定的文本字段提供一个文本框, 用户在其中输入查询的信息, 由程序将输入的文本组织成有效地SQL语句, 执行并得到结果。但是如果用户有特殊需要时这种方法显得无能为力, 如用户希望在“姓名”字段上得到所有姓王或姓张的人。

针对这种情况, 给出一个基于字符串分析的对象来扩展文本字段的查询。用户根据查询需要输入通过由与、或、括号、引号所表达的语义化可读查询条件, 对象经过分析计算得出所对应的SQL语句的WHERE子句, 从而扩展了对该文本字段查询的宽度和深度。

2 实现

2.1 设计思想

所有功能由对象TextQueryParser提供, 该对象对用户输入的查询文本采用递归方法, 以空格、引号、括号进行切割并归结为3类因子, 分别为:文本、操作符、内嵌。在其中提供内嵌对象Factor处理具体的因子。输出时也采用递归方法将每个因子按其逻辑关系组织成为有效的WHERE子句。对括号支持无限深度嵌套。

2.2 具体实现

2.3 调用

如果希望在人员表中得到所有姓王且姓名中含有建国或红军的人员, 可做如下调用:

执行后sz输出为:

人员表.姓名LIKE"*王*"AND (人员表.姓名LIKE"*建国*OR人员表.姓名LIKE"*红军*") 这是一个完整的完整的WHERE子句。设计人员可以基于此子句构造符合实际需要查询功能。

代码在Visual Studio 2003环境中调试通过。

3 结语

语义查询 篇4

关键词:语义网络,P2P,参考模型,分布式计算

目前,针对P2P的研究已经产生了很多各种各样的实现与体系结构。由于各类研究者在知识管理、数据库、信息检索、P2P等方面的不同背景,这些各种各样的实现与体系结构导致了在定义域抽象与概念上表达的二义性与不兼容性。P2P仍然是一个不断演化的领域。GUO Fangfang等构建了一种层次P2P模型[1],用于网络安全数据融合告警系统,刘衍珩等构建了P2P流媒体中动态分级传输模型[2],用于流媒体的传输。目前存在不同的SP2P系统以及其类型,例如,Piazza、Chatty Web、KEx、Somewhere、Hyperion、Peer DB、co Db、Esteem、Observer以及Edutella,这些系统互不兼容,具有不同的体系结构,是由具有不同知识背景的专家所开发。

参考模型创建有两种不同的方法,Volker与Katarina[3]阐述了创建参考模型的两种主要方法,即:1)当某个领域有大量系统可用时,可以通过抽取现有系统的通用组件来开发参考模型;2)对于一个领域,没有较多系统可用时,通过对现有与本领域相近的领域参考模型进行提升得到。本研究课题采用第一种方法,即从现有系统及其相关工作中抽取共同组件,以构建SP2P系统参考模型,该SP2P系统参考模型捕获了许多SP2P系统及其相关工作的共同特征,并对这些系统与相关工作的关键概念提供了标准化的描述。为了获取参考模型的主要结构,我们主要关注对现有SP2P系统的显著特征进行识别,这些特征是有代表性的SP2P系统及其相关工作的用户可视的各个方面,包括SP2P系统的共同方面与不同方面,这种方法就是面向特征的领域分析法(FODA)[4]。我们也对与SP2P系统相近领域的参考模型进行研究,包括网格计算参考模型[5]与Web服务参考模型[6],这些参考模型代表了各个经典领域,并采用第一种参考模型创建方法创建。选取多个SP2P系统及其有代表性的相关研究工作来抽取SP2P系统的显著特征,包括Chatty Web、KEx、P2PSLN以及Piazza四种系统及其相应的组件、组件属性以及组件之间的关系。

1 SP2P参考模型查询过程构建

已经存在许多各式各样的SP2P实现与体系结构。主要由于研究者的知识背景不同,并且SP2P领域仍然在不断演化。我们所提出的SP2P参考模型满足通用体系结构的本质需要,对现有系统的主要方面进行建模。一个特殊的SP2P系统,例如,Chatty Web、Piazza等,可以看成是参考体系结构的一个实例。本模型是一个高层次的抽象,隐藏了开发者的实现细节。然而,它使得导出具体的系统成为可能。基于本参考模型所创建的系统应该容易修改。SP2P参考模型由七个主要结构组成:

SP2P=<p,r,qf,sn,rt,m,qa>

其中p表示结点;r表示资源;qf表示查询生成器;sn表示语义邻居;rt表示路由;m表示映射;qa表示查询结果。这七个结构组成了任何SP2P系统所需要的最小组件,并能用于评估SP2P系统。查询生成器、语义邻居以及路由的集合行为协同构成查询过程。

1.1 结点

结点p=<id,r,f,n>,代表网络中的一个活动对象或一个实体。每个结点有一个标识符,id,唯一地标识网络中的一个结点;资源的集合r;概要f;邻居的集合n。这些元素非常重要,每个SP2P系统中的结点都必须包含它们。统一标识的结点使得包括从各种合适结点中进行包括信息检索在内的各种有意义的网络操作成为可能。为了有效地搜索、信息交换以及协作,结点需要保存语义相关结点的参考。结点能管理的资源包括文档文件的集合、目录文件、结点愿意交换的学习对象。当要描述参考模型的资源结构时,需要提供更多的资源信息。概要是对结点的领域知识、经验或服务的描述。举例,数据模型的主要概念的子集可能组成结点的概要。为了建立语义邻居,就需要概要。在SP2P系统中,结点比较概要,并基于概要的相似性与其他结点进行连接。关于结点是如何使用概要相互连接的信息请关注语义邻居模型结构的描述。

1.2 资源

资源r=<dm,i,md>,是任何SP2P系统的主要创建块之一。如果没有资源,则SP2P系统没有实际意义。在SP2P系统中,结点的资源由本体或数据模型dm、实际数据i、元数据md构成,以改进搜索与内容检索的性能。

结点可以用不同的数据模型来表示它们的数据。这些数据模型包括关系表、XML概要、RDF数据模型以及OWL文件。数据模型的选择非常重要。基于数据模型的选择,系统之间差别很大。高度结构化的数据具有以下两个特征:

1)对语义的支持

对数据模型的选择决定了数据语义的透明性。语义的透明性允许对数据进行自动化地机器处理,并提高查询结果的精度。例如,RDF与OWL数据模型语言能支持定义与表示数据语义,而XML与关系表则不能显式地支持据语义表示。例如,当使用OWL语言进行数据建模时,系统能够识别“zip code”与“area code”相同,而“terminal”作为计算机的显示器不同于“ter⁃minal”作为一种工作站。因为使用OWL语言时,一个概念不仅是只有一个标签,它由标签、概念属性以及概念之间的关系组成。

2)支持推理

对数据模型的选择决定了系统回答查询的能力的外延。例如,RDF与OWL等数据模型支持知识推理,具有这些类型的数据建模的系统能够应答查询,信息不是显式地存储在它们的数据库。这对于其他不同数据模型的系统来说可能是一件非常困难的事。

结点可以将数据模型带到网络中来,但在很多的情况下,结点共享由一个数据模型所构建的实际数据实例i。资源人工化包括正式定义描述的文档文件集合。另一方面,元数据md,例如一个本体名字空间或有关其他结点资源的结点知识,都是对网络上外部资源的引用。元数据使得资源可以重用,它们在网络的某个地方可用,或存储于结点的数据库中,以提高资源共享程度,并使得结点从局部存储大量的资源中解放出来。

结点能共享它们带到网络中或从网络中获取的内容。与常规P2P网络相比,SP2P中的资源为了能被网络中的结点查询过程使用,既不能被复制,也不能被指派给其他结点。然而,有时为了SP2P用于文件共享,这个特征或约束被放宽。

1.3 查询生成器

在SP2P系统中,信息是有结构的、规范的,基于关键词的查找,并不意味着查找的方式也是结构化的。结点可以查询其他结点上规范地定义的结构化信息。因此,SP2P系统中的结点需要支持查询格式化。查询生成器qf=<sc,cq,pq,q,l>,是一个提供图形化用户接口的组件,是一个位于资源层顶部的一个独立组件,支持语义增强的查询格式。结点使用他们自己的查询生成器组件从局部资源库中选择概念,组成查询,在邻居结点中放入查询。

通过使用选择概念子组件,结点能浏览它们的局部信息,选择期望的概念,组成查询过程自动地加入必要的背景信息到查询概念中。例如,对于查询,选择一个概念书时,组成查询过程可能自动地把“书是一个出版物,它有作者、出版社等属性”加入到查询中。同时,查询组成过程允许用户定义查询约束条件。例如,当查询书时,用户可以定义他感兴趣的书,要求是2016年后出版的书。另一方面,安置查询是关于实际查询的一个提交。一旦正确的查询形成了,安置查询使用户触发查询的提交。

查询对象q基于随着系统对查询显式语义的认可而各不相同,也就是,由于数据模型的不同,数据对象也不同。例如,查询能合并引用到局部或全局本体中,以支持查询概念意义。当一个树型数据表示用于表示一个资源时,例如XML格式,一个查询概念能被一个树的路径所替换以解释概念意义。一个树的路径指的是概念、它的祖先以及子孙概念。

与查询信息相关的另一个重要方面是需要采用正确的查询语言,用以形成查询。对查询语言的选择限制了查询内容的具体语义,一种适合SP2P系统的查询语言是Sprql。

1.4 语义邻居

SP2P网络拓扑是非结构化的、基于语义的。具有兼容信息资源、相互连接的结点组成语义邻居sn,多个相互连接的语义邻居组成SP2P网络。在SP2P系统中,具有兼容信息资源的结点与其邻居结点连接并放置查询,因此,需要发现与群集具有兼容信息资源的结点,也就是,形成语义邻居。

语义邻居是SP2P系统的一个显著特征。语义邻居的创建涉及到一些系统方面的决策,包括连接结点方法的选择,结点自主加入方法(aj)或者结点发现方法(pv),相似度函数(sim)以及网络连接度(d),即sn=<aj,av,sim,d>。形成语义邻居的两种常见方法描述如下:

结点自主加入方法(aj):结点自主地选择将要连接的其他结点,由结点负责标识语义相关的结点,并且,当它们的域表示不同时,结点在它们自身信息资源或本体与其相关结点的本体之间构建语义映射。

结点发现方法(pv):结点交换它们的概要(f)并且使用相似度函数(sim)sim来发现语义相关的结点,概要的交换可能发生在网络启动时间或者新结点加入到一个已建立起来的基于语义的网络中的时候。想要与其他结点建立连接的结点广播其概要,相关的结点通过发送它们的标识(id)与概要来响应查询结点。查询结点计算关系强度,也就是两个概要的语义相似度,再决定接收或者拒绝连接应答。结点可能只有有限的连接数目,网络度(d)d代表这方面的极限。

结点只需要采用上述两种方法中的一种来创建语义邻居。结点自主加入方法适合于创建稳定的SP2P系统,为此,结点投入大量的资源来创建相互间的映射链接。另一方面,结点发现方法适合于创建动态SP2P系统,结点基于它们的概要相似度来发现和连接到其他结点。

上述描述的两种方法具有共同的行为,即计算概要相似度。其共同的行为被放置到一个共同的超级类中,以供个性化的方法所继承以方便实现。

1.5 路由

路由rt=<fs,ch,tp,lm>,也是SP2P系统的主要组件。SP2P系统对于不同的搜索与内容检索需要组件。路由组件负责从查询发起者pi传送查询q到邻居n的一个或多个查询接收者,并返回查询结果。在SP2P系统中,查询路由到路由的三个不同方成的决策。这些方面是:1)路由转发策略(fs);2)循环处理(ch);3)路由终止策略(tp)。现有SP2P系统在这三个方面有不同的措施。下面是对这些问题、它们的功能以及重要性进行描述:

转发策略(fs):有各种不同的方式可以在SP2P系统中传播查询,包括泛洪、基于专家知识的选择以及适应性查询路由[7-9]。在检索查询结果的时间效率与所使用的查询消息数量上,这些策略互相之间是不相同的。适应性查询路由是当前SP2P系统最广泛使用路由查询技术,其原因是获取查询结果的高效性。具有适应性路由策略的SP2P系统采用学习技术来实现有效的路由,换句话说,结点使用其过去的交互经验来决定未来的查询路由。基于这个考虑,每个结点仅根据它自身的经验来对未来路由进行决策,或除了它自身的经验外,还可以利用其他结点的推荐信息。适应性策略技术的中心思想是利用现有网络中的额外信息,例如,有关结点最有可能提供正确查询应答的信息,并把查询发送给最相关的结点。

适应性路由也涉及关系管理(lm)。关系管理指的是依据结点重复提供结果的不正确性(或者正确性)决定删除(或者保存)结点相应的关系。当从结点p'收到若干不正确的结果后,一个结点p能决定放弃发送查询到邻居结点p'。

循环处理(ch):如何处理查询重复是查询SP2P系统的另一个重要问题,也就是已经看到的查询。一个结点可能从不同的路径或经由网络中的一个循环周期接收到相同的查询。作为选择,在由语义相关结点多次翻译后,一个结点通过不同的路径或循环在网络中能接收到一个更具体的查询。

SP2P系统需要管理查询循环。因为需要重复处理查询对查询消息交换的数量与结果的完整性有重要的影响。尽管中止已存在的查询可能阻止提供一些重要应答的机会,处理重复查询增加了一个系统要交换的查询消息的数量,导致产生大量重复的查询结果。对查询重复的处理一般采用查询唯一标识符(qid)或查询路径信息(path)。这两种情况下,需要给查询附加信息用于结点丢弃重复查询。

查询终止策略(tp):什么时候停止查询转发也是SP2P系统路由查询的另一个重要工作。目前停止查询转发的通用技术依赖于对跳数计数或设置查询生存周期(TTL)。采用跳数计数方法,系统管理员设置一个网络路径的长度,即一个查询消息在结束之前可能遍历的网络路径。另一方面,生存周期方法是基于时间的;一个查询消息能在网络中遍历的由一个查询所指定的一段时间。当一个消息遍历网络时,它的生存周期值在减少。当TTL的值变为零时,消息转发停止。这些技术对可能获取的查询结果有重要的影响。例如,即使结点已经收到查询结果,只要约束许可,结点将继续向其邻居转发查询。查询结果的数量将受到影响。另一个查询转发停止策略是采用查询内容来决定是否继续转发。采用这种策略,当查询内容为空时,查询转发终止。查询内容变空,是在翻译处理的过程中概念丢失的结果。在查询转换或翻译的过程中,基于删除或者不删除不理解的查询概念,我们将SP2P系统分成两类,即:不可简化的SP2P系统(IRSP2P)、可简化的SP2P系统(RSP2P)。

定义1:IRSP2P系统是一个具有如下属性的SP2P系统,在查询转换以及多个结点转发期间,不丢弃不理解的查询概念。

定义2:RSP2P系统是一个具有如下属性的SP2P系统,在查询转换以及多个结点转发期间,丢弃不理解的查询概念。

例如,Piazza系统属于IRSP2P类;Chatty Web属于RSP2P类。

2 模型适应性与确认

在SP2P系统中,由查询结果组件(qa)得到合适的查询结果。在参考模型中,本体之间与概念转换由映射组件来描述。为了表明模型的适应性,KEx、P2PSLN、Piazza以及Chaty Web系统体系结构被映射到此参考模型。映射表1说明,所描述的最新系统拥有模型的核心组件,然而,它们在组件属性与组件关系的实现上是相互不同的。

3 结束语

本研究构建了语义P2P系统参考模型查询过程,包括查询生成器、语义邻居以及路由的集合行为协同,描述了用于标识模型的组件、特征以及属性的模型开发方法,从通用的、高层抽象的角度对涌现出来的分布式计算模式进行建模,为本领域建立了一个通用的技术框架,使得研究成员相互间能更好地理解与交流,为各个语义P2P系统间的比较提供了共同准则。

参考文献

[1]GUO Fangfang,HU Yibing,XIU Longting,FENG Guangsh-eng,WANG Shuaishuai.A Hierarchical P2P Model and a Da-ta Fusion Method for Network Security Situation AwarenessSystem[J].Wuhan University Journal of Natural Sciences,2016,21(2):126-132.

[2]刘衍珩,李松江,王爱民.P2P流媒体中动态分级传输模型及传输算法[J].吉林大学学报:工学版,2016,46(1):259-264.

[3]Berners-Lee T,Fischetti M.Weaving The Web:The OriginalDesign and Ultimate Destiny of the World Wide Web by itsInventor[M].New York:Collins publishing,2000.

[4]Kang K.Feature-Oriented Domain Analysis[R].Technical Re-port Number CMU/SEI-90-TR-21,Software Engineering Insti-tute,Carnegie Mellon University,Pittsburgh,PA,1990.

[5]Parashar M,Member S,Browns J C.Conceptual and imple-mentation models for the grid[C].Proceedings of the IEEEJournal,2005,93(3):653-668.

[6]Laskey K,Mc Cabe F,Estefan J,et al.Reference model for ser-vice oriented architecture[EB/OL].http://docs.oasis-open.org/soa-rm/v1.0.

[7]Staab S,Stuckenschmidt S.Semantic Web and Peer-to-Peer:Decentralized Management and Exchange of Knowledge andInformation[M].New York:Springer publishing,2006.

[8]Tempich C,Staab S,Wranik A.REMINDIN’:semantic queryrouting in peer-to-peer networks based on social metaphors[C].Proceedings of the Thirteenth International Conference onthe World Wide Web,2004:640-649.

语义查询 篇5

Web数据的半结构性、异构性和分布性,给Web信息集成系统的查询处理造成了一定的困难。针对上述现状本文提出了一种在Mediator-wrapper结构中嵌入XQuery语义缓存的查询处理方案,优化了Web信息的查询性能。

1、相关概念

1.1 语义缓存

语义缓存存储了查询的语义描述信息及查询结果,其数据模型不再是大小固定的元组或页面。因此,语义缓存比传统缓存更具灵活性和动态性。

1.2 语义缓存的数据模型

XQuery查询的语义主要体现为模式匹配和结果构造两部分,本文设计了语义抽象树 (Semantic-Abstract Tree) 和标签关系树 (Tag-Relation Tree) 两种结构来刻画XQuery查询语义,作为语义缓存的数据模型。

定义1语义抽象树(Semantic-Abstract Tree)

一个规范化后查询Q的语义抽象树由复合二元组<FB<Var, Ev, Lv>, Ef>表示:

1)%FB表示FWR查询块集合,其中Var表示FB中变量结点集合;Ev表示有向边集合,有向边连接具有依赖关系的两个变量结点;Lv是有向边的标识集合,标识是父变量结点产生子变量结点的绑定路径;

2)%Ef是连接FB结点的有向边,代表了FWR查询块之间的嵌套和依赖关系。

定义2标签关系树(Tag-Relation Tree)

一个规范化后的查询Q的标签关系树TRT由复合三元组<Tag, Et, Lt<var, ret>>表示:

1)%Tag表示标签集合,每个标签是return子句中元素构造器,在查询结果中代表一个新元素;

2) Et是有向边集合,有向边连接两个结点,头结点是尾结点的子元素;

3)%Lt是标识集合,其中var代表标签包含的变量结点集合;ret代表标签包含的返回结点集合。

2、基于SAT和TRT的语义缓存查询处理

本文提出的基于XQuery语义缓存的Web信息集成的查询处理流程如图1所示。

首先进行查询规范化,等价替换let子句、原子查询和where子句中的本地变量;再由查询解析生成SAT和TRT;然后利用多元树型同态匹配算法判断新查询的SATq与语义区中缓存查询的SATQ的包含关系。如果q与某缓存查询Q相交或包含或,则利用基于TRT的重写规则将q重写为q’,并在查询Q对应的结果XML文档上执行查询q’。

XQuery语义注册:如果两查询不存在包含关系,则根据全局视图与局部视图的映射表进行查询分解和结果合成;同时将该查询的SAT和TRT注册到语义区中。

2.1 XQuery查询的语义包含关系判定

XPath查询为单个路径表达式,通过一元树型同态匹配即可确定XPath的包含关系[2]。XQuery查询包含多个类似XPath查询的绑定变量,因此刻画XQuery查询语义的SAT是一种多元树型模式,它不仅保留了绑定变量间的依赖关系,还刻画了FWR查询块的嵌套层次。

算法:基于SAT同态的查询包含关系匹配算法

输入:SAT1<FB1, Ef1>和SAT2<FB2, Ef2>分别是XQuery查询Q1和Q2的语义抽象树

输出:SAT1和SAT2语义同态关系,ture表示同态,false表示不同态

For每个结点n (n∈FB1) ,判断是否满足如下映射条件{

I如果n, m是FB1中的结点,且parent (m) =n,那么n和m在SAT2中的映射结点Map (n) 和Map (m) 也必须是相同的祖先-子孙关系;

/*parent (n) 表示n的祖先结点,Map (n) 表示n在SAT2中的映射结点;*/

II Path (n) 哿Path (Map (n) ) ;

/*一元树型同态匹配算法,Patn (n) 表示变量结点n的绑定路径表达式;*/

III If Type (n) =FV,那么Type (Map (n) ) 可以为FV or RV;If Type (n) =RV,那么必有Type (Map (n) ) =RV;

IV If parent (m) =n,那么Map (m) 所在的fb (fb∈FB2) 必然是Map (n) 所在的fb或其内嵌fb。

If SAT1中所有结点都能在SAT2找到满足上述条件的映射结点

return ture

Else reture false}

2.2 基于TRT的查询重写

XQuery查询重写分为for子句和return子句的重写:

1) for子句重写:通过遍历TRT中映射变量所在有向边的头标签结点,将它与原变量的父变量结点用“/”连接在一起,作为新变量的绑定路径。

2) return子句重写:在SAT和TRT中,都用叶子结点表示返回结点。对于SAT中的一个叶子结点ln1,如果ln1能与TRT中的某个叶子结点ln2在查询匹配中构成映射关系,那么只需将ln1的前缀变量改写为其入边尾结点表示的新变量,其它部分保持原来不变。

2.3 查询处理过程举例

现假设已有一按Gav方式生成的全局DTD视图bib.xml:<!ELEMENT bib (bib, book, author, editor, title, last, first, affiliation, publisher, price) >。针对全局视图, 用户递交了查询Q1, 而Q2为已缓存的查询。

如图2所示Q1和Q2的匹配,$root并不是在查询中定义的变量,是SAT中的根结点变量获取数据源的根元素。根据映射条件判断其它变量结点的匹配情况:Q1中$book变量的绑定路径根据一元树形同态匹配算法可判断与Q2中$book具有同态关系,且year属性条件具有包含关系;Q1中变量$title是FV类型,Q2中变量$title是RV类型,根据条件III可以判定两者构成匹配;$author也得到匹配。因此可判定SAT1与SAT2同态,且Q1的查询结果被包含在Q2的结果中。

按XQuery查询重写规则将Q1重写为Q1':

第一步:将Q1中的根结点$root根据查询Q2的结果文档改写为doc ("D:queryResultbib_0.xml") /Q2,其中D:queryResultbib_0.xml为Q2的查询结果文档;

第二步:如图2,$book (SAT1)与$book (TRT2)为一对映射变量。$book (TRT2)所在有向边的头标签为<relt>,而$book (SAT1)的父变量为$root,此时$root已在第一步中被重写。根据for子句重写规则将$root与<ret>用"/"连接起来,则SAT1的$book的绑定路径重写为doc ("D:queryResultbib_0.xml") /Q2/relt[@year≥2000];

第三步:$author (SAT1)的绑定表达式前缀为重写的新变量$book,其在TRT2中的映射变量$author所在有向边的头标签结点为<auths>,故其绑定路径改写为$book/auths。

由于SAT1和SAT2中的叶子结点都完全匹配,因此无需重写return子句。重写后的查询Q1'如下所示。

只需在Q2的结果XML文档上执行查询Q1',就可在本地直接获得查询结果。

2.4 结合路径表达式的语义缓存替换策略

根据XQuery查询特点,可以将XQuery查询的信息统计和替换粒度细化到XPath表达式,使得在淘汰整个查询时可以保留命中率较高的那部分路径表达似查询。

因此在缓存替换策略设计时,以查询及其返回变量和路径表达式作为考察对象,统计并记录它们最近命中时间T、访问次数N、查询响应时间Δt,查询结果大小M等参数,用于替换策略权值R=w1·T+w2·N+w3·M+w4/Δt的计算,其中wi为参数的权值,并根据R值的高低替换缓存中的整个查询或路径表达式。

3、查询性能测试与分析

3.1 查询正确性验证

本文在W3C发布的XML Query Use Case[4]中选择了一组使用频繁的XQuery查询集"XMP",在使用缓存和不使用缓存两种情况下执行"XMP"查询集。测试结果显示,本文所提出的查询处理技术可以处理XQuery的常用核心子集,对于XQuery的大部分函数和结构及用户自定义函数有待进一步研究。

3.2 查询响应速度测试

在没有语义缓存的情况下,查询响应时间由三部分组成:Ttotal=Trequest+Texcute+Tresponse。通常情况下,Trequest和Tresponse的总和要远大于Texcute。利用语义缓存可以减少Trequest和Trespons。本测试以在oasis-open[5]上发布的莎士比亚文集(XML格式)为查询测试数据源。客户端缓存空间占有率为27.2%,共有语义片156个,缓存查询总数为200。经过三种角度(改变数据大小、改变查询包含关系、改变查询嵌套深度)的测试证明:查询处理时间可以被有效的缩短。

4、结束语

本文设计并实现了XQuery查询的语义匹配和重写算法,该方案能使用户可以直接在本地获得部分或全部查询结果,从而有效地提高信息集成系统的查询性能。

参考文献

[1]XQuery 1.0:An XML Query Language[EB/OL].http://www.w3.org/TR/2006/PR-xquery-20061121/, 2006-11-21.

[2]P.T.Wood.Minimizing Simple XPath Expressions.In Pro-ceedings of WebDB, pages 13-18, 2001.

[3]Li Chen, Elke A.Rundensteiner.XQuery Comtainment inPresence of Variable Binding Dependencies[C].IW3C2, 2005, 5:288-297.

[4]XML Query Use Cases[EB/OL].http://www.w3.org/TR/xquery-use-cases/#xmp-dtd

语义查询 篇6

“人民金典”语义查询系统就是为了方便广大用户查询和使用这个数据库中的内容, 提供强大的信息检索功能。

本项目属于语义检索技术领域, 主要做法是依托中国共产党思想理论专业领域的专家知识和经验, 把传统文献编目的方法引入计算机检索, 模拟人脑的思维模式, 构建基于语义分析的模型, 形成了该领域的知识库。目前该知识库的主要内容资源是马列著作、领袖著作、中央文件文献及相关中国共产党思想理论的重要资源。

该系统包括若干检索子系统, 目前有:

“人民金典语义查询”系统:能够按语义对著作文献资源, 实现从篇目章节、段落层次到语句等知识点的查询。

“人民金典概念关联”系统:可供用户在研究问题、构思文章时, 找到一个概念与其它概念之间的语义关联, 获取所需要的语段。

“人民金典自动比对”系统:用户能在网上把所要引用的经典论述与电子书进行自动对照, 迅速发现引用对错。

本项目的主要特点有, 将传统文献编目方法引入计算机知识点编目, 提出了一种面向政治理论文献的知识点标引模型。该模型成功创建了由上位词与下位词共同展现知识点的主题词目录、由检索词与相关词共同展现知识点的连带词目录, 可大幅度提高了语义自动识别准确率。

该模型的推出和在政治理论文献中的成功应用, 可延伸到其他领域文献的语义建模。

在知识点标引模型的基础上, 创建和实现了多个独具特色的模拟人脑思维过程的语义检索模型, 有效地解决了关键词检索技术存在的多种不足, 可以向用户提供高质量的信息检索服务。

“人民金典”语义查询系统适合应用于经典文献的检索。采用该系统中的“人民金典语义查询”子系统, 已实现了对中国特色社会主义理论体系重要著作 (邓小平、江泽民、胡锦涛同志的著作文章约200万字) 的知识点编目及精确语义检索, 可检索知识点达到7万个。

采用该系统中的“人民金典概念关联”子系统, 实现了对中国共产党思想理论主要理论文献全部在用版本的知识点编目及语义检索, 可检索知识点达到约200万个, 可检索文献数量达到70多种、约500多本, 约13万千字。

未来几年, 计划将该系列工具进一步拓展到学术类、文化类经典文献的知识点编目及检索。目前, 正在以此为重要技术基础, 筹划建设“中华经典文献数字化开发传播工程”。

“人民金典”语义查询系统首先在“中国共产党思想理论资源数据库与传播工程”中得到成功应用, 于2009年5月上线试运行, 2010年6月正式上线运行。其中的“人民金典语义查询”系统于2009年出版发行光盘发行3000张。该系列工具, 成为整个理论数据库工程的鲜明亮点和特色。李长春、刘云山同志的视察观看网站演示并作重要指示, 新闻出版总署柳斌杰署长亲自为理论数据库主持举办上线仪式并作了重要讲话, 全国新闻媒体60多次对理论数据库作了报道, 在上述领导讲话和媒体报道中, 大多数突出赞扬和肯定了该系列工具的知识点查询作用。

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【语义查询】相关文章:

词汇语义05-17

色彩语义05-25

语义特点05-31

语义设计06-08

语义特征06-10

语义模型06-16

框架语义分析05-23

浅层语义分析06-11

语义学06-13

语义特征提取06-13

上一篇:六字诀下一篇:诗歌教学与多媒体运用