标准检索

2024-06-17

标准检索(精选八篇)

标准检索 篇1

1 MPEG-7标准的核心内容

MPEG-7标准的正式名称是“多媒体内容描述接口”[1] (Multimedia Content Description Interface) , 其目标是提供一种有效的多媒体描述机制, 规范多媒体描述接口, 实现多媒体描述的标准化。其中描述子D、描述方案DS和描述定义语言DDL构成了MPEG-7标准的核心内容[3]。

描述子D (Descriptor) :特征的表示。它定义了表示特征的语法和语义, 可以赋予描述值。一个特征可能有多个描述子, 如颜色特征的描述子可能有:颜色的直方图、频率分量的平均值等。

描述方案DS (Description Scheme) :说明其成员之间的结构和相互关系。即定义描述子之间, 描述子和描述方案之间, 以及描述方案和描述方案之间的相互关系。

描述定义语言DLL (Description Definition Language) :用来定义、创建和生成描述子和描述方案, MPEG-7标准的DDL语言是一种模式化语言, 采用XML Schema作为其基础, 提供了把描述子构建为描述方案的规则。

2 MPEG-7标准的多媒体描述方案

MPEG-7标准定义了一种描述规范, 使对多媒体资料的索引、检索和查询变得和现在的文本索引、检索和查询一样高效和方便。MPEG-7标准的多媒体描述方案可按描述功能分为六大类:基本要素、内容描述、内容管理、导航与访问、内容组织和用户交互。

基本要素:定义了一组对描述多媒体信息内容有帮助的可扩展的数据类型和结构, 有用于描述时间、地点、人物、个人、团体、组织和文本表注等的描述方案, 也有用于链接媒体文件、对内容片段进行定位的描述方案。

内容描述:用以表征和描述可察觉多媒体信息内容的结构和语义。结构描述方案能为音视频内容提供包括时间、空间或时空结构的描述。语义描述方案则包含叙述该内容的事件、对象、时间、地点信息和内容概要信息。

内容管理:提供对内容创作信息、描述信息以及使用信息的描述。

导航与访问:用来定义多媒体信息内容的一系列概要、分解和变换信息。

内容组织:为音视频内容、片段和事件提供多种组织和建摸方式, 并描述它们的基本性质。

用户交互:描述了用户对于多媒体节目的喜好及使用信息, 具有检索和交换音视频数据结构和语义注解能力。可支持个性化音视频内容的获取和过滤的应用。

3 基于MPEG-7标准的视频检索技术

3.1 基于内容的视频信息检索关键技术分析

基于MPEG-7标准的视频信息检索首先经过视频结构分析, 将原始连续视频流分割成不同的镜头单元, 并提取镜头的关键帧, 关键帧和镜头的视觉特征被提取并以MPEG-7标准描述存入特征数据库, 对应的视频内容存在视频数据库中, 通过检索结果能准确定位相应的码流[2]。下面是对基于内容的视频信息检索关键技术的分析。

视频结构分析:视频结构分析是通过镜头边缘检测和关键帧提取等技术, 把连续的视频流分割成包括帧、镜头和场景等视频结构单元, 它是实现基于内容检索的第一步。视频结构分析分为镜头边缘检测和场景检测两个层次。镜头边缘检测将视频数据划分成镜头, 然后根据镜头之间的相似程度进行场景结构提取, 其检测方法主要有:摸板匹配法、直方图法、基于边缘的方法和基于模型的方法等。

镜头分割和关键帧提取:为了访问视频内容, 必需对视频进行信息定位, 依靠对视频节目基本单元——镜头的分割, 实现视频标引。镜头分割常采用基于边缘的方法, 设计确定从镜头到镜头的转换处, 利用镜头之间的转换方式如突变或渐变进行镜头检测。镜头中的关键帧可用来标识场景、故事等高层语义单元。关键帧提取可以检索视频数据流在内容上的冗余度, 其提取原则是既要在数量上精简, 又能够反映视频内容。关键帧的提取算法主要有:基于镜头边缘法、基于颜色特征法、基于运动分析法和基于聚类的关键帧提取等。

特征提取和语义获取:特征提取是基于内容检索的基础。视频信息的特征包括通用特征 (如颜色、纹理等) 、运动特征 (如空间、方向等) 、概念特征 (如内容、主题等) 、音频特征 (如音响、音调等) 和视频文本等。其中视频概念特征提取和跟踪, 是视频分析中最困难的部分, 可利用运动信息进行处理。

显示和交互技术:基于内容的视频信息检索是一个人机互动的过程。能为用户提供交互界面、多样化的查询手段、方便快速的浏览和导航能力, 并满足各种交互需求的视频检索系统才能使用户获得满意的检索结果。许多时候, 人们在开始搜索时并没有精确指定的对象或目标, 因此在视频检索系统中, 不仅仅是提供查询视频数据库的手段, 而且要提供相关的反馈和完善的交互机制, 协调用户与系统之间的语义表达。

3.2 基于MPEG-7标准的视频信息检索流程分析

在视频信息检索流程中, 可将视频内容的处理分为三个部分:内容获取、内容描述和内容操作。即先对原始媒体进行处理提取内容, 然后用标准形式对它们进行描述, 来支持用户对内容的操作, 整个步骤的流程如图1所示。

内容获取:对象分割与特征提取是基于内容检索的关键技术之一, 只有对多媒体数据库中的媒体信息进行正确的分割和完备的特征提取后, 才有可能对信息的内容进行描述。由于视频数据具有时空特性, 内容的一个重要成分是空间和时间结构。内容的结构化就是分割出图像对象、视频的时间结构、运动对象以及这些对象之间的关系。特征提取就是提取出显著的区分特征和人的视觉、听觉方面的感知特征来表示视频和视频对象的性质。

内容描述:内容描述是在对象分割和特征提取的基础上对内容进行描述。对内容的描述要求尽可能的完备, 并且要有层次。这主要是因为同样的特征在不同的应用场合, 对不同的人而言可能有不同的含义, 如果内容描述不完备, 就会减少多媒体信息被检索到的途径。MPEG-7标准的多媒体内容描述主要是采用了描述符和描述方案来分别描述媒体的特征及其关系。

内容操作:这是针对内容的用户操作和应用。查询是面向用户的术语, 主要用于数据库操作。检索是在索引支持下的快速信息获取方式。搜索是指在大规模信息库中搜寻信息的含义。摘要是对视频和音频媒体进行的一种特殊操作, 其目的是获得一目了然的全局视图和概要。最后, 用户可以通过浏览操作, 线性或非线性地存取结构化的内容。

4 结语

本文在MPEG-7标准的基础上分析了视频信息检索的关键技术及检索流程。MPEG-7标准作为一种被广泛接受的国际标准, 在基于内容的视频检索应用中展示出了强大的优势。虽然基于MPEG-7标准的视频检索技术的研究已取得了很大的进步, 但对于建立基于MPEG-7标准的视频数据库以及由此建立一套完整的基于内容的检索机制还都在研究和开发中。

摘要:MPEG-7标准的制定解决了多媒体内容描述的标准化问题, 可满足用户对多媒体内容快速、有效检索的需求, 提高多媒体内容的利用价值。本文在介绍MPEG-7标准的核心内容及多媒体描述方案的基础上重点分析了基于内容的视频信息检索关键技术及基于MPEG-7标准的视频信息检索流程。

关键词:MPEG-7,基于内容的视频检索,特征提取

参考文献

[1]刘惠彬.MPEG-7新标准及其视频信息处理算法设计[J].上海工程技术大学学报, 2007.

[2]薛玲, 李超, 熊璋.基于MPEG-7协议的视频检索系统设计[J].北京航空航天大学学报, 2006.

信息检索标准化的发展动向 篇2

信息检索标准化的发展动向

介绍ISO标准化的信息检索协议Z39.50、馆际互借协议ILL及电子文档交换协议GEDI,探讨下一代信息检索协议SRW/SRU、CQL的应用及发展动向.

作 者:唐健雄 李世玲  作者单位:河北师范大学,石家庄,050091 刊 名:现代情报  PKU英文刊名:MODERN INFORMATION 年,卷(期):2007 27(10) 分类号:G250 关键词:信息检索   标准化   Z39.50   ILL   GEDI   SRW   SRU   CQL  

标准检索 篇3

M P E G-7是活动图像专家组(M P E G)开发的ISO/IEC标准,在MPEG已经制定的国际标准中,M P E G-7是用于描述关于信息的信息,所以一般被称为“多媒体内容描述接口”,它能提供一套丰富的多媒体内容描述工具集,解决对多媒体信息描述的标准问题,并将该描述与所描述的内容相联系,以实现快速有效的搜索。该标准将在数字图书馆、广播媒体选择、远程教育、电子商务、家庭娱乐、多媒体目录服务和购物等方面发挥重要作用[1,2]。只要从键盘输入几条指令或在屏幕上画出图形,就可以找到想要的内容。还可以自定义一个甚至几个对象,规定它(它们)的形状、颜色和运动状态,对想要的内容进行搜索。

2 MPEG-7视觉描述

在M P E G-7中,视觉描述部分规范了视频内容中视觉特征的描述,用户可以快速而有效地搜索自己感兴趣的素材。在这部分中,主要定义了一组描述方法和工具,主要包含:描述子D(Descriptors),用来描述多媒体内容的各种特征,每个描述子都定义了标准和非标准两个部分,标准部分定义了描述子的语法、语义及其二进制的表示法。而操作部分是非标准的部分,许多低层的特征(如颜色直方图等)都是可以自动抽取的,而且推荐使用的特征抽取及匹配算法都包含在非标准的部分。描述方案DS(Description Schemes),用来描述D之间的结构及关系。描述定义语言DDL(Description Definition Language):用来定义D和DS的语言[2]。一个MPEG-7描述(descriptions)由一组DS实例组成,并与A V素材的内容链接,以使用户能够快速、有效地访问需要的A V素材。描述可以与A V素材存储在同一存储系统中,也可以异地、远程存储。

MPEG-7的众多描述子都包含在视觉描述子中,视觉描述子主要运用了颜色、纹理、形状、运动、位置等基本视觉特征。在这些特征中又包含25个数据描述符/数据描述方案:(1)基本元素(Basic Elements):有2个。(2)运动(Motion):有4个。(3)颜色(Color):有7个。(4)定位(Localization):有2个。(5)纹理(Texture):有3个。(6)面部(Face):有1个。(7)形状(Shape):有3个。(8)容器(Containers):有3个。

3 MPEG-7的应用

M P E G-7标准可以实现的应用领域涉及教育、旅游、新闻、娱乐、地理、医疗、商业、建筑等许多领域。例如:数字多媒体图书管的构建和管理、视音频媒体资产的存储、管理、查询和检索、广播电视媒体广播业务、因特网个性化多媒体服务、智能多媒体目录服务(旅游信息、地理信息系统等)、多媒体信息查询、多媒体远程教育、远程购物、医疗服务、统计调查服务、遥感、遥测、监视(交通控制)、建筑设计、家庭娱乐及其管理系统、图像编目、音乐词典等等。但是从总体上来说它可以归为3个大类的应用。Pull类应用:MPEG-7标准的Pull类应用是从索引到搜索,Pull处理的是存储在数据库里的静态信息描述,通过给携有MPEG-7标准数据的多媒体信息加上索引,用户就可以快速高效地进行信息检索,此类应用能够使用户搜索多媒体信息内容就像搜索文字内容一样方便;Push类应用:MPEG-7标准的Push类应用很像网络广播方式。Push类应用是从选择到过滤,它处理的是变化的动态信息描述与过滤,可提供用户想收看或收听的多媒体信息。多媒体信息内容的过滤本质是多媒体信息内容搜索的逆过程,搜索涉及到“拉”出信息数据的过程,而过滤则意味着“推”出信息数据的过程。搜索要求包容信息,而过滤则是排除信息;特殊的专业应用和控制应用:M P E G-7潜在的应用并不限于传统的、面向媒体的多媒体内容,还可以用于更广泛的“元”内容表示的应用领域。

4 结语

M P E G-7是一个复杂的媒体压缩标准体系,其内容十分丰富。M P E G-7的出现是文本信息时代向多媒体信息时代过渡的必然产物,在未来的多媒体信息检索服务中,M P E G-7必将发挥主导作用。

摘要:对MPEG-7产品特点和功能作了简单描述。重点研究了MPEG-7视频技术中最重要的可视特征和视觉描述,这部分是多媒体视频和音频信息的重要描述部分,是多媒体视频、音频信息的具体表示形式。通过对这些信息的特点进行具体的描述和表示能够快速有效的查询和浏览多媒体图画、图形、N维模型、音频、演讲、视频等用户感兴趣的信息。

关键词:MPEG-7,视觉描述,特征,应用

参考文献

[1]白木,周艳琼.从MPEG1到MPEG7[J].实用音频技术,2000,4(12):45~46.

[2]廖国彬,何铁军.MPEG标准及其应用[J].西部广播电视,2006,11(8):28~29.

文献检索检索策略 篇4

(2)正确选择各种算符,如逻辑算符,位置算符,截词符,字段限定符等,编制合理的计算机检索式。

(3)分析学科范畴,以便确定所要检索的学科领域,提高查全率。

(4)确定检索年代、文献类型

(5)选择检索方法(常用法、追溯法和循环法)

常用法:顺查法(顺着时间的推移由远及近的查找)

倒查法(由近及远的往前追溯查找)

抽查法(根据学科发展的时代背景,发展的高峰期查找)

追溯法:参考文献法(根据所附参考文献的出处追溯检索)

科学引文法(通过被引用作者查找引用作者的文献)

(6)确定检索的信息源(包括中外文数据库和网络资源等)

标准检索 篇5

随着我国市场经济的逐步完善以及与世界经济的逐步接轨, 电力投资规模日益加大, 电网工程项目建造过程也日趋复杂, 市场竞争日趋激烈。面对新的形势, 新的挑战, 电力企业必须密切追踪国际先进管理模式, 以实现项目管理的标准化、规范化, 提高企业管理水平为目标, 不断增强企业的市场竞争能力。供电公司面临项目多、任务重的局面, 在全面完成建设目标的同时, 确保基建安全稳定局面, 提升电网建设质量, 落实精益化工程建设管理的任务愈显重要。制度标准体系的建设非常重要, 是提升电网建设安全质量、工艺水平, 提升管理效率和效益的基石。

电网基建主要指输变电工程的建设, 包括土建、电气一次、电气二次、通信等多方面的建设, 在施工和验收过程中涉及多项国家、行业和企业标准、规范。而电网基建工程施工场所一般都远离日常办公地点, 若基建员工在进行现场勘探、施工、监理、验收时需查询工程相关的管理制度、标准及规范, 则需携带大量纸质文件, 供现场使用。但现场携带大量标准规范不适应施工现场的“随时随地”的实际需要, 尤其是长距离的输电线路工程。

2 基建施工及验收标准规范移动检索应用目标

结合“互联网+”和“云存储”技术在电网建设中的应用, 通过研究在移动智能终端中查阅基建施工及验收涉及的各类管理制度、标准及规范文档, 对基建施工及验收所需的各类管理制度、标准及规范文档进行分类, 将基建验收涉及的各类文档进行整理, 转化为可搜索的文档存储于云存储中, 基建员工通过智能手机等移动终端, 可随时、随地查阅并搜索文档中的内容, 摆脱当前工作环境中所遇到的困难, 如需打印文档、随身携带文档、不方便查找等问题, 大大提升基建管理的工作效率与知识管理水平。

3 基建施工及验收标准规范移动检索应用实现手段

通常标准规范、管理制度等文件在智能终端上通过浏览器阅读时, 是全文阅读的方式, 即在智能终端上查看全文, 在文件中寻找自己所需要的内容。该种方式存在一定的缺陷:由于标准规范、管理制度等文件内容较多, 篇幅较长, 当查找某项特定内容时, 需要在文件中进行前后切换, 操作极为不便。尤其是基建施工现场一般都远离办公地点, 智能终端的屏幕较小, 用户在使用的时候十分不便。

因此, 20 1 5年9月, 国网江苏省电力公司徐州供电公司开发了《基建施工及验收标准规范移动检索应用》A P P, 通过全文搜索的方式, 实现了在智能终端上对于基建施工及验收标准规范的查阅。当用户需要查询某项内容时, 先输入需要查询的关键字, 系统会将该关键字在标准规范、管理制度等文件中各章节出现的位置列出, 然后用户根据关键字前后的上下文选择其需要查阅的内容, 进行阅读。

3.1 基建验收相关的管理制度、标准及规范的全文索引制作

基建验收相关的管理制度、标准及规范的收集、整理以及全文索引的制作是项目的基石, 在该部分工作中收集必备的基建施工及验收相关的管理制度、标准及规范文档, 如《建设工程项目管理规范》、《1 1 0k V~10 0 0 k V变电 (换流) 站土建工程施工质量验收及评定规程》、《110 k V-5 0 0 k V架空电力线路工程施工质量检验及评定规程》、《电气装置安装工程质量检验及评定规程》等。中文全文索引的制作流程如图1所示。

对文档的全文索引制作, 将词典分词与文法分析算法相结合, 采用“正向迭代最细粒度切分算法”, 极大的提高了中文检索的命中率, 制作生成的全文索引与H T M L 5文档、P D F文档一起生成压缩包, 供移动终端下载使用。

3.2 文档分发

文档分发功能是将制作好的包含全文索引的H T M L 5文档分发到用户的移动终端上。在新的管理制度、标准及规范制作好后, 在服务器端上传该文档, 服务端会自动向系统中的所有用户的智能手机终端发送通知消息, 告知其有文档更新。用户接收到通知消息后, 可以使用智能手机等移动终端连接到服务器进行文档的下载或更新。

3.3 移动应用开发

移动应用是面向用户的接口, 是次应用实现的重要组成部分, 主要包括的功能有:

(1) 文档安全管理。

用户在使用移动应用前, 必须先进行登录, 登录后, 才可访问智能手机等移动终端上的文档内容。登录时不仅会进行用户名、密码的验证, 也会对设备进行授权验证, 允许授权的终端设备访问, 非授权的终端设备无法访问。

(2) 文档阅读与搜索。

在移动应用中将所有文档以列表的方式进行展示, 用户可点击文档进行阅读, 也可通过输入关键字的方式进行搜索, 应用会将包含该关键字的文档逐一列出, 并标明该关键字在文档中出现的次数及位置, 用户可以直观的获取到需要的信息从而进行查阅。系统文档列表界面如图2所示。

当输入搜索的关键词时, 移动应用会列出所有文档中包含该关键词的数量, 点击进入某文档后, 会列出该查询关键词在文档中各章节出现的频度, 此时用户可根据自己需要选择需查阅的章节。关键词搜索文档列表界面如图3所示, 关键词搜索文档章节列表界面如图4所示。

在用户为了具体查询某个标准、规范的详细内容而进行具体章节阅读时, 移动应用会将搜索关键词列出, 用户可点击页面右侧的箭头在关键词之间切换, 以寻找合适的内容。文档阅读界面如图5所示。

(3) 文档更新。

文档更新包括:移动应用可以接收到服务端发送的通知消息, 及时提醒用户有新的文档发布或者有文档需要更新;当手机连接到服务器时可以从服务器获取可以更新的文档列表, 选择相应的文档更新至移动终端中。

4 基建施工及验收标准规范移动检索应用使用情况

自201 5年1 0月起, 基建施工及验收标准规范移动检索应用A P P在国网徐州供电公司基建系统开始试点推广应用, 220 k V微山湖输变电工程等1 0余项工程的参建人员普遍反映, 该系统简单易学、方便便捷, 在现场更快、更方便的查阅各类文件, 提升了现场管理的精益化水平, 满足了电力企业基建工程施工及验收管理的需求。

5 结语

基建施工及验收需要查阅各种标准、规范、管理制度等文件, 通过基建施工及验收标准规范移动检索应用, 可帮助基建建设的管理、监理、施工人员在现场更快、更方便的查阅各类文件, 提升各类人员的知识管理水平与能力, 从而提升电网建设质量、管理效率和效益。

摘要:针对基建施工及验收特点, 分析基建施工及验收标准规范移动检索应用目标, 介绍该应用实现手段以及使用情况。

标准检索 篇6

国家标准GB/T 3935.1-83定义 :“标准是对重复性食物和概念所做的统一规定,它以科学、技术和实践经验的综合为基础,经过有关方面协商一致,由主管机构批准,以特定的形式公布,作为共同遵守的准则和依据”。中国标准按内容划分有基础标准(一般包括名词术语、符号、代号、机械制图、公差与配合等)、产品标准、辅助产品标准(工具、模具、量具、夹具等)、原材料标准、方法标准(包括工艺要求、过程、要素、工艺说明等)。我国的标准还可以分为国家标准、行业标准、地方标准和企业标准四级,在专利审查检索工作中经常会用到的标准是国家标准和行业标准,这两类可以通过万方标准数据库检索得到。

1 领域分析

本文对较熟悉的测量、测试领域(国索探析。测量、测试领域的发明申请主要涉及温度、电变量、磁变量、核辐射等多个测量的细分领域,其中包括G01N“借助于测定材料的化学或物理性质来测试或分析材料”[2],该小类包括有光学检测、超声检测、微波检测、参数测试以及其他相关的多个交叉领域中的检测、测试技术。G01N领域涉及的学科多,如物理、化学、电学,技术覆盖范围广,国内高校、研究机构的申请量占据很大的比例,因此,检索时除了采用常用的检索数据库CNABS、CNTXT、VEN等,还需要对非专利文献数据库进行检索,如CNKI,万方,ISI等。与此同时,由于该领域的专利申请中要求保护的技术方案通常有较多的技术特征,且这些技术特征与国家标准中涉及到的方法标准的相关度较高,因此,在对该领域方法权利要求的审查要更注重中国标准的检索,采用万方标准数据库进行相关检索,有利于提高检索效率和检索质量。

2 案例分析

案例1

权利要求1 :一种焊丝 钢ER50-6光谱分析 用标准样 品,其特征是,规格为Φ40mm×40mm的圆柱体,成分为 :铁为基体 成分,合金元素 成分及其 含量为 :C 0.07 ~ 0.09wt %, Si 0.88 ~ 0.92wt%,Mn 1.45 ~ 1.55wt%, P 0.018 ~ 0.022wt%,S 0.01 ~ 0.015wt%, Cr 0.02 ~ 0.03wt%,Ni0.005 ~ 0.01wt%, Cu 0.005 ~ 0.01wt%,其它杂质元素的含量都< 0.005wt%。

分析与检索过程 :权利要求1中详细指出是焊丝钢“ER50-6”的光谱分析用标准样品,并给出合金元素的成分和含量。ER50-6是碳钢弧焊丝,具有优良的塑性、韧性和抗裂性能,尤其是低温冲击韧性较高。因此,自然就会考虑从焊丝钢ER50-6这个型号检索,判断是否有关于该种产品的国家标准,在万方标准数据库中检索得到“GB/T 8110-2008气体保护电弧焊用碳钢、低合金钢焊丝”,该标准公开了焊丝钢ER50-6中的成分与含量,其中成分与本申请要求保护的是一致的,含量与本申请略有不同,考虑到产品的标准样品成分必然要与产品相同,那么关于该产品的标准是可以用于评述该标准样品的。另外,采用关键词“标准样品”和“制备”在百度搜索引擎中进行检索,得到一个行业标准“SJ/Z 3206.7-89光谱分析标准样品的制备通则”,该标准给出了光谱分析标准样品的制备方法,并且也给出了标准样品的成分与样品成分不尽相同,起伏可以在5-30% 之间。因此,采用上述两个标准的结合即可评述本申请的创造性。

检索小结 :对于某一具体型号的产品或某一熟知的产品,该产品权利要求要求保护的技术方案是产品的成分及含量,此时特别注意是否有与该产品或类似产品相关的国家标准,该国家标准中可能涵盖有相关的参数信息。

案例二

权利要求1 :一种埋地管道内腐蚀管道剩余强度评价的方法,其特征在于 :获取包括 :管径、壁厚、材质、管输介质、工作压力、温度、最近一次试压数据、腐蚀环境、防腐保护数据、管道使用年限,泄漏历史及维护维修工程数据的腐蚀评价信息 ; 采用超声波检测方法测量管道内腐蚀区域 ;管道外腐蚀区域测量,包括 :去除管道表面检测区域的所有保温材料、防腐材料及腐蚀产物,腐蚀坑深度测量,轴向长度测量及环向长度测量 ;管体腐蚀损伤尺寸评价,包括蚀坑相对深度评定,腐蚀轴向长度评定,环向腐蚀影响评定 ;腐蚀管道安全工作压力评定 ;管体腐蚀损伤评定类别划分。

分析与检索过程 :该专利申请涉及一种埋地管道内腐蚀评价方法,考虑到评价方法涉及规范的方法步骤,属于行业的操作方法,优先考虑在与本发明内容相关的标准数据库中检索,选取关键词“管道、腐蚀、评价”在万方标准数据库进行检索,得到“SY/T 6151-2009钢质管道管体腐蚀损伤评价方法”和“SY/T 6151-1995钢质管道管体腐蚀损伤评价方法”,能够评述权利要求的创造性。

检索小结 :方法权利要求涉及公知或规范的方法步骤和计算公式时,特别是权利要求表述上呈现的是“评价方法”时,优先考虑在标准数据库中进行检索,尤其注意相关的行业标准。

案例三

权利要求1 :一种快速检测污水中六价铬离子的方法,包括下述的步骤 :(1) 准备或配制试剂 :1+1磷酸溶液,将磷酸与水等体积混合 ;1+1硫酸溶液,将硫酸与水等体积混合 ;蒸馏水或去离子水 ;丙酮 ;显色剂 :二苯碳酰二肼溶液,称取二苯碳酰二肼0.2g溶于50mL丙酮中,加水稀释至100mL,摇匀,贮于棕色瓶内,置于冰箱中保存 ;(2)配制检测试剂 :在洗瓶中加入100ml蒸馏水或去离子水 ;再依次加入1ml的1+1硫酸和1ml的1+1磷酸, 摇匀 ;之后加入4ml配制好的二苯碳酰二肼溶液,摇匀 ;最后加入100ml蒸馏水或去离子水,摇匀,得检测试剂,待检测时使用 ;(3)检测试样 :取2 ~ 5ml待测水样于容器中,向容器中加入2 ~ 5ml检测试剂,与待测水样充分的混合摇匀,观察混合液的颜色 ;(4)比色读数 :将混合液与已知浓度的红色标准色谱板进行比对,确定六价铬离子的含量范围 ;所述的已知浓度的标准色谱板是指向配制的已知不同浓度的标准六价铬离子溶液分别加入上述的检测试剂,将定容后所显示的红色标准颜色应用全数字电脑印刷技术制成精准的红色标准色谱板。

分析与检索过程 :本申请是一个检测元素的方法权利要求,其中采用的是比色法实现对元素含量的检测。该方法中的溶液配制和检测试样等步骤都体现出了常规元素检测的步骤,此时,优先考虑在与发明内容相关的标准数据库中检索。首先检索是否有六价铬含量测定的相关方法, 选取关键词“六价铬、水”以及显色剂“二苯碳酰二肼”在万方标准数据库中进行检索,得到“GB/T 7467-1987水质六价铬的测定二苯碳酰二肼分光光度法”,该标准给出了采用显色剂实现对水中六价铬含量的检测,采用的方法是分光光度法,通过查找校准曲线上的相应位置即可得到六价铬的含量,该标准与本申请的不同之处在于,本申请采用了红色标准色谱板比对得到六价铬的含量,因此,在该标准的基础上进行扩展检索得到一篇通过标准比色板实现六价铬含量检测的期刊文献, 两者结合可以评述本申请权利要求1的创造性。

检索小结 :对于采用常规检测方法对某一种元素含量的检测,如采用分光光度法检测六价铬、采用比色法检测金属铜等方法,通常优先考虑采用标准数据库对该元素进行检索,尤其是在权利要求要求保护的技术方案属于溶液配制的常规方法时,更应该考虑国家标准或行业标准。

3 小结

标准检索 篇7

图像检索有基于文本和基于内容两种实现形式。基于内容的图像检索[1,2] (Content Based Image Retrieval (CBIR) ) 结合图像处理和信息检索两大领域技术[1], 根据图像颜色、纹理、形状等反映图像视觉低层特征的信息进行检索。在其初期, CBIR不需要人的干预, 用户提交样本图像后, 系统根据图像主要特征, 自动在图像库中查找匹配图像, 反馈给用户。其中一个问题是, 检索出的图像往往会包含一些用户感觉不该出现的结果。为了能根据用户意见改善系统性能, 近年来出现了将用户模型纳入检索体系进行综合设计的检索系统, 即利用相关反馈技术 (Relevance feedback) 实现检索。

所谓相关反馈就是将用户的反馈意见, 即检索结果与目标图像的关联程度, 作为优化系统性能的基础, 据此进行再次搜索以得到更好检索结果。它包括两个主要环节, ①是用户意见的反馈方式, ②是对反馈意见的利用方法。前者的一般实现为提供若干个窗口, 由用户勾选满意的结果;后者在不同系统则有不同的实现方法。目前典型的实现途径主要有三条, 即:查询点移动、权系数调整以及基于模式分类的方法[3]。大多数引入相关反馈技术的系统都采用了这三种方法中的一种。

MARS系统是一个典型的引入了相关反馈技术的系统, 由美国伊利诺斯大学开发。它实现了被称为标准离差的特征权重调整方法, 成为后续很多研究的经典范型。该系统只允许用户对相关图像进行反馈, 并根据相关图像集中某一特征成分的离散程度, 即标准离差的大小, 对图像的不同特征成分赋予不同的权重。本文对MARS系统中所采用的算法进行分析, 在原算法的基础上考虑负例图像, 即与查询图像不相关图像的因素, 引入了一个参数, 并提出了一种新的算法。文章的第二部分对该算法进行了详细阐述, 第三部分将该算法在1000幅图像的Corel数据库中进行试验, 结果证明改进后的算法提高了图像检索的查准率。第四部分对本文所作研究进行了小结。

2基于标准离差的特征权重调整算法

基于标准离差的特征权重调整算法首先将向量的成分规格化, 即将数据置于相同的区间, 然后再在相关反馈的过程中动态地调整权值[4]。

假设数据库中有M幅图像, 每幅图像由N维的一个特征向量组成, 那么我们就可以组成一个M@chN的特征矩阵F=fij, 其中fij是第i幅图像的特征向量Fi的第j个特征成分。F的每一列都是一个长度为M的序列, 这个序列就是所有图像特征向量的第j个特征成分的集合, 表示为Fj。我们的目标是将所有的列规格化在相同的区间, 从而确保每一个独立的特征成分在两个特征向量进行相似性计算时具有相同的分量。高斯标准化是实现它的一个有效方法。假设Fj是一个高斯序列, 计算这个序列的均值mj和标准方差σj, 这样我们就可以用下面公式将这个最初的序列规格化为一个符合标准正态分布的序列。undefined

经过变换后各个特征成分落在[-1, 1]之间的概率为68%, 如果用3σj做分母, 那么它们落在[-1, 1]之间的概率就可以达到99%。在实际中, 我们通常将所有特征成分的取值都视为在[-1, 1]区间。因此, 标准化过程确保了特征向量中每个成分具有相同的分量。

我们的最终目标是赋予那些与查询图像相关的特征成分以更大的权重, 赋予不相关的特征成分以更少的权值, 而相关反馈的结果正提供了特征成分相关与不相关的依据。用户在返回的图像中标注相关图像 (假设为M′个相关图像) , 相关图像的特征向量F′i组成了M′@chN的矩阵, 这样, 矩阵的每一列就是一个长度为M′的Fj。如果所有相关图像特征向量的第j个成分具有相似的取值, 那么就意味着这个成分与查询图像具有相关性, 反之, 相关图像中第j个成分的差异如果很大, 则表明它与查询图不相关。因此, Fj序列标准方差的倒数是度量j分量的一个很好的参数, 序列中的成分取值越相似, 序列的权重越大[5]。

这种方法在MARS系统中得到了很好的应用, MARS系统所使用的权值调整方法就是对所标记的相关图像的所有成分以1/σ进行加权。然而, 许多相关图像某个成分的1/σ值比较大, 但是这个标准方差小的成分并不一定是与查询图像相关的成分, 比如它可能是背景。在这种情况下, 对MARS系统的权值调整方法进行改进, 引入其它参数是相当必要的。

3改进的基于标准离差的特征权重调整算法

给定一个查询图像Q, 查询后的返回图像集合I={i1, i2, ..., iM}, M为图像个数。用户在返回的图像集中选择自己认为相关的图像, 相关的图像集合记为R, 不相关的图像集合记为U。集合I中的每一幅图像用N个特征来表示, 记为fm={fm, 1, ..., fm, N}, 其中m∈I, 我们用向量undefined表示第m幅图像的第n个特征, Ln是特征长度。

将查询图像Q的第n个特征表示为

undefined

我们用带权重的欧氏距离来度量查询图像undefinedn和图像库中第m个图像undefinedm, n之间的距离。

undefined

其中, Wn关于wn, s的对角矩阵, wn, s表示第n个特征的第s个分量的权重。本文所提出的方法就是通过相关反馈对wn, s进行调整。

相关图像集合R和不相关图像U的并集I=R∪U。将所有相关图像的第n个特征的第s个分量放入集合Fundefined, 同样, 将所有不相关图像的第n个特征的第s个分量放入集合Fundefined, Fundefined的取值范围定义为Φ′n, s=[φundefined, φundefined][4], 其中

φundefined=Min (Fundefined)

φundefined=Max (Fundefined)

为了减少由Fundefined定义的取值范围的误差, 将其区间范围适当缩小, 经过反复试验得到新的合适区间为:

Φn, s=[ (2φundefined+φundefined) /3, (2φundefined+φundefined) /3]

给定图像第n个特征的第s个分量的交叉集合为:

Ψundefined={∀fn, s|fn, s∈Φn, sandfn, s∈Fundefined}

Ψundefined表示落在Φn, s区间的Fundefined的子集。将第n个特征的第s个分量的判别率定义为

undefined

判别率表示属于Φn, s区间的不相关图像的比率, 它显示了第n个特征的第s个分量从相关图像中区分不相关图像的能力, 若将Fundefined的标准方差表示为σundefined, 那么新的权重表示为:

undefined

改进的基于标准离差的权值调整算法将不相关图像也引入到权值计算中来, 避免了相关图像之间某个成分的1/σ值比较大而该成分与查询图像可能不相关这种情况, 从而提高了图像检索的查准率。

4试验与结果讨论

为了验证本文算法的检索效果, 实验采用CBIR研究文献中最为常用的Corel图像数据库, 该数据库包含1000幅图像, 图像细分为大象、高山、海滩、花朵、汽车等10个种类, 每个种类包含100幅图像。

为了使实验更加客观, 我们规定:判断两幅图像是否相似的依据为它们是否属于同一种类。本文采用查准率评价检索系统的性能, 查准率的定义如下:

查准率undefined

设计实验如下:分别从10个类别中随机抽取5幅图像作为查询图像, 这样构成了50 次查询。对于每次查询, 计算系统在采用不同相关反馈算法检索图像的查准率, 如下表所示。

实验在显示前10幅、20幅、30幅图像的情况下对10个图像种类分别用MARS和改进后的算法进行检索, 计算出每个图像种类的平均查准率, 实验数据如上表所示。从数据可以看出, 改进后的算法除在恐龙和草原马这两个图像种类检索的查准率比原来的算法低之外, 在其它图像种类的查准率比原算法提高1%-9%。改进后的算法虽然在恐龙和草原马这两个图像种类的检索查准率比原算法低, 但是其检索的查准率也均在90%以上, 因此, 改进后的算法比原算法在查准率上具有更好的优越性。

5结束语

本文针对MARS系统相关反馈部分所采用的权值调整方法中存在的不足, 提出了一种改进的基于标准离差的权值调整的算法, 该方法考虑了负例图像对权系数的影响, 在原算法的基础上引入一个新的参数, 实验结果表明, 改进后的算法比原算法在查准率上提高了1%-9%, 从而提高了图像检索的效率。

参考文献

[1]Rui Y, Thomas S.Huang Content-based image retrieval with relevance feedback in MARS[A].In:Proceedings of IEEE interna-tional conference on image processing.1997, 815~818

[2]李鹏杰, 杨树云.一种基于内容的图像检索系统Imagel.微计算机应用, 2001, 22 (3) :138~142

[3]M.L.Kherfi, D.Ziou Relevance Feedback for CBIR:A NewApproach Based on Probabilistic Feature Weighting With Positive and Negative Examples In:IEEE Transaction on image processing, April2006, 15, (4) :

[4]Rui Y, Thomas S.Huang Relevance Feedback:APower Tool for Interactive Content-Based Image Retrieval.In:IEEE Transaction on Circuits and Systems for Video Technology, September1998, 8, (5) :

全文检索模型的检索性能研究 篇8

全文检索系统包括如何建立和维护全文索引以及在此基础上如何实现快速有效的检索[4,5]两个方面。因此,对全文检索模型的检索性能研究就是一项基础而重要的工作。

本文首先对几种常见的检索模型进行定性的分析,然后给出模型的关键实现,接着对检索模型的检索性能进行实验验证,最后给出全文的总结。

1 关于检索模型

目前常用的全文检索模型有单索引检索模型、单索引+数据库检索模型、分布式检索模型。其中分布式检索系统,如Google等大型通用搜索引擎,其基本思想是将海量的数据进行分散存储,通过多机集群的处理能力,集中解决协同索引和检索的问题。但其实现技术难度大,由分布式并行处理所带来的性能几乎为解决索引与检索同步问题所抵消[6],因此本文不对该模型进行更多的研究,重点对前两种模型进行分析研究。

1.1 单索引检索模型

如图1所示的单索引检索模型中,系统只建立一个全文索引库,在创建索引的同时保存被索引信息。该模型的优点是,在进行全文检索时,相关信息直接从索引库中获得,与数据库库无关,可省去数据库的查询时间。其缺点是,索引库相当庞大,会比只对索引域建索引大2倍以上,造成数据大量冗余,增加系统存储压力,同时也降低该模型的检索速度;另外,索引总是滞后于数据库中的信息变化,造成检索信息的“失真”现象。

1.2 单索引+数据库检索模型

单索引+数据库的检索模型如图2所示。创建全文索引时,只建索引,不保存被索引信息。检索过程为:先进行全文检索,再根据全文检索结果(记录ID)反查数据库,在数据库中根据相应条件过滤数据。此模型的好处是:索引库较小,减少了数据冗余,减轻了系统存储压力,全文检索的速度有所提高。其不足之处是:增加了一次数据库查询的时间开销,整体查询速度方面并未改善;索引依然滞后于数据库中的信息变化,影响系统的查准率、召回率。

2 检索模型关键实现

全文索引库是检索模型的核心,索引库的性能决定了检索模型的性能,图3全文索引库的实现流程图。

3 检索模型性能实验与分析

前面已经对各个模型做了定性的分析,为了通过实验来测试单索引模型和单索引+数据库模型的检索性能,首先实现了一个简单的检索系统。实验基本环境:单台PC机,Pentium(R)4 2.80GHz的CPU,1.5GB内存,7200转速80GB硬盘;操作系统为windows XP 2002专业版,Tomcat6.0的应用服务器,IE7.0的浏览器,使用开源数据库管理系统MySQL5.0;在测试库中导入1000条图书记录,记录包含编号、标题、摘要、内容等多个字段,图书内容长度800—5000个汉字不等,摘要长度最大200个汉字,标题最长50个汉字。测试结果如表1所示。

从表1实验数据来分析:1)从时间上看,单索引模型整体优于单索引+数据库模型,但从平均响应时间来对比,单索引模型优势并不明显,110ms左右的最大时间差不会明显影响系统检索性能;2)从索引库大小来看,单索引却处于明显劣势,随着记录的增加,会给系统带来很大的存储压力,同时索引的维护代价必然远远超出后者;3)单索引模型中,两种检索策略的使用,带来40ms左右的平均检索性能差异;4)单索引+数据库模型中,使用不同检索策略,也产生40ms左右的平均检索性能的差异。

综上所述,采用的检索模型与检索策略的不同,系统检索性能会有一定差异,为具体项目选择检索模型与策略提供了一定的实验依据,同时也为改进系统检索性能,提供了一些思路,如对检索策略、首次检索速度及索引本身进行改进。

4 结束语

本文对多种全文检索模型进行了分析与研究,实现了具体的检索系统原型,通过实验对不同检索模型的检索性能进行了验证,为今后检索模型的选择及检索性能的改进与优化提供了实验依据及思路。

摘要:对比研究了多种全文检索模型,实现了相应的系统原型,并通过实验对模型的检索性能进行了验证,为检索模型的选择与检索性能优化提供参考。

关键词:全文检索,检索模型,检索性能

参考文献

[1]王珊,文继荣.数据库与信息检索技术的融合[J].中国计算机协会通讯,2006,2(4).

[2]罗良道.高校图书馆Web站点站内搜索引擎的调研与建设[J].情报科学,2002,20(9):946-948.

[3]龙怡,刘俊熙,等.我国省级政府门户网站搜索引擎现状调研报告[J].现代情报,2008,1:212-215.

[4]徐小刚,王俊杰,等.全文索引的研究[J].计算机工程,2002,28(2):101-103.

[5]郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(2):94-96.

上一篇:初中英语教学新模式下一篇:医疗建筑与城市空间