有关信息检索

2024-06-29

有关信息检索(精选十篇)

有关信息检索 篇1

关键词:SRU/W协议,OAI协议,协同使用

引言

SRU/W和OAI就是具有一定代表性的协议。SRU/W和OAI是几乎在同一时间由不同的组织基于不同的应用背景所开发的信息检索协议。SRU/W是为了解决之前信息检索协议过于复杂, 无法直接与WEB连接等问题而提出的下一代协议的一个组成部分, SRW根据最近WEB技术的发展, 提出的一个基于WEB服务 (WEB Service) 的信息检索协议。OAI是在原有信息检索协议基础上进行改进, 其目标是通过元数据收获这种模式实现在Web上发布信息的不同组织 (主要在欧美等地) 之间的互操作, 形成一个与应用无关的互操作框架, 是一项简单、灵活的元数据互操作协议, OAI支持选择性的收割方式, 适合于系统间元数据的循环交换。

以上两种协议都是为了解决分布、异构的数据资源的检索、集成和共享问题提出的, 它们之间存在着相同点和不同点, 本文根据实际工作情况对这两个协议进行比较, 并对这两个协议的协同使用进行研究, 其研究的目的是如何将这两个协议结合起来, 发挥各自的优点, 从而实现数字信息的资源的更好地集成和共享。

1 S RU/W和OAI的概述

1.1 SR U/W协议

SRW是一个针对WEB应用的信息检索协议, 提供基于Web Services的各种用户访问机制, 它定义了一个通用的、抽象的模型, 各个系统可以将其具体实现映射到该抽象模型上, 实现了不同网络资源、分布式数据库的统一检索功能。SRW的设计一方面根据了Z39.50信息检索通讯协议标准, 另一方面运用了现有的技术基础如SOAP、XPath等。SRW使用的是模块化的整合方式。更进一步说, SRW设计的理念是将信息检索视为各种查询检索服务的集合。

1.2 O AI协议

OAI的设计思路和核心思想相对容易和简单:在HTTP协议的基础上, 制定了一些命令动词, 其中主要应用的有6个命令动词, 这6个命令动词中, 有三个是用来揭示知识库的特征 (List Sets、Identify、List MetadataFormats) , 另外三个是用来从知识库中提取元数据 (Get Record、List Records、List Identifiers) 。

2 S RU/W和OAI的比较

SRU/W和OAI都是为了解决信息资源检索的整合和共享而提出的解决方案, 它们之间存在着相同点和不同点。根据两个协议提出时间最新版本、响应中是否带版本号、上下文相关敏感性、传输机理、服务提供方的工作、响应信息的处理等几个方面作出相应的比较。比较结果如表1所示。

3 OAI、S RU/W的协同使用

对于二者的协同使用中, 单纯依靠任何一种协议方式不能满足数字信息检索中的分布、异构资源的整合、共享需求, 为了能够为信息检索用户提供的流畅的信息检索服务, 需要将这些协议结合起来使用。

3.1 SR W所提供数据的O AI接口

SRW与OAI可以通过特定的接口结合使用, 根据需要再实现OAI元数据收割接口。在OAI框架中, 为了提供能够响应OAI请求, 数据提供者必须为找到能够与其现有数据库配置相匹配的OAI实现。OCLC OAIcat通过对数据库引擎、数据存储格式映射机制进行抽象, 可以为任意数据库系统建立OAI元数据接口, 实现基于OAI-PHM2.0协议的元数据开放。但开发能够访问不同数据库的应用程序不仅仅是OAI实现所需要解决的问题。理想的解决方案是具有一个能够工作于不同的数据库配置的标准检索API, 可以考虑采用SRU/W来实现。

3.2 为通过O AI所收割的元数据集提供SR U/W检索接口

目前对于用OAI所收割的元数据集, 存在着多种检索服务Web接口, 每种检索服务都有自己的查询语法和服务规范, 这种状况不利于集成检索。为了解决这一问题, 可以为通过OAI所收割的元数据提供SRU/W检索接口, 使得用户可以直接通过SRU/W接口实现对OAI元数据集的检索。这一思想及模型目前已在资源发现网络 (Resource Discovery Network) , 欧洲图书馆 (The European Library) 等项目中加以利用, 这一模型同时也是几个大规模系统架构的基础, 如Andy Powell所描述的JISC信息环境。

4 结语

有关信息检索 篇2

摘要:

文章主要研究了信息检索的重要性,信息检索的含义和要素,以及常见的信息检索方法的介绍和信息检索过程中应当注意的问题以及解决方法这几个方面,采用有文献法、个案法、统计法、比较法、行动研究法、调查法和经验总结法等研究方法,来阐述信息检索及其应用。详细全面的介绍,可以让部分不了解信息检索的人能通俗易懂的了解并应用一些常见的信息检索工具。从事实和实际出发,有力的论证了信息检索的重要性以及它的实用性。关键字:

信息;检索;信息检索;事实检索;检索语言;文献语言

通过学习信息检索这门课,我学会了如何利用web这个庞大的资源库快速便捷地找到自己所需要的信息。信息检索与应用涉及的领域广阔,从中文数据库搜索的介绍到外文数据库搜索的介绍,在这个快速发展的21世纪,各种信息数据在不断的增加,怎样更快速便捷的查找到我们需要的信息,显得日益重要。我们为什么要进行信息检索呢?通过什么方法进行快速的检索来应用检索显得日益重要。我们为什么要进行信息检索呢?一方面,信息检索是获取知识的捷径。美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。另一方面,信息检索是科学研究的向导。美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。此外,信息检索还是终身教育的基础。学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求

那么,什么是信息检索呢?通过“百度”搜索引擎可以得到解释是:“:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。总的来说,信息检索就是用一定的方式找到用户所需要的信息(此处通过百度查询信息检索的定义也是一种方法)”。常用的信息检索手段包括(1)手工检索(2)光盘检索(3)联机检索(4)网络检索。信息检索的四个要素是什么呢? 信息检索的前题----信息意识

所谓信息意识,简单地说,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。信息意识含有信息认知、信息情感和信息行为倾向三个层面。信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。

信息检索的基础----信息源(信息的来源)

信息源的构成 :按文献载体分----印刷型、缩微型、机读型、声像型 ;按文献内容和加工程度分--一次信息、二次信息、三次信息 ;按出版形式分----图书、报刊、研究报告、会议信息、专利信 息、统计数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其中后8种被称为特种文献。教育信息资源主要分布在教育类图书、专业期刊、学位论文等不同类型的出版物中)

信息检索的核心----信息获取能力

能力要求:(1)了解各种信息来源(2)掌握检索语言(3)熟练使用检索工具(4)能对检索效果进行判断和评价。判断检索效果的两个指标:查全率=被检出相关信息量/相关信息总量(%); 查准率=被检出相关信息量/被检出信息总量(%)

信息检索的关键:信息利用 社会进步的过程就是一个知识不断的生产—流通—再生产的过程。为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,创造出新的知识和信息,从而达到信息激活和增值的目的。

通过上面对信息检索各个要点的详细阐述,让我们对信息检索有了全面的认识。然而,在现实的生活中,我们可以通过那些工具的检索来帮助我们去得到我们想要的东西呢?例如,我是学习会计电算化专业的,这是一门与经济活动计算与研究紧密结合的学科。要学好,就必须借助网络这个信息平台,查找更多的专业资料。首先我们平时习惯用百度或Google等这些门户网站搜索。此外若要查找专业论文,像万方数据库(偏于理科)、中国期刊网(偏于文科)、重庆维普等这些专业网站会更实用。普遍的有万方数据库(偏于理科)、中国期刊网(偏于文科)、重庆维普等。这些网站提供的都是一些很前沿而且都是经过发表的学术类文章,能够为我们提供很好的信息服务。但这些网站的一般都是要付费的,需要注册登录才能下载相关文章,一般大学图书馆都会每年购买这些网站,为我们的学习研究带来很多方便。下面我详细的介绍一些有关这些专业性的检索网站的一些搜索方法。如果想查找一些中文的期刊资料,可以通过重庆维普中国科技期刊数据库,CNKI中国知网,万方数据库等 重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人。自1989年以来,一直致力于期刊等信息资源的深层次开发和推广应用,集数据采集、数据加工、光盘制作发行和网上信息服务于一体;收录有中文期刊8000种,中文报纸1000种,外文期刊4000种,拥有固定客户2000余家。目前已成为推动我国数字图书馆建设的坚强支柱之一。在以上的数据库中,最为常用也最受大家欢迎的是《中文科技期刊数据库》。《中文科技期刊数据库》还是目前世界最大的连续动态更新的中文期刊全文数据库,积累全文文献728多万篇,分七大专辑:自然科学专辑、农业科学专辑、医药卫生专辑、教育科学专辑、经济管理专辑、图书情报专辑、工程技术专辑 中国知识资源总库(CNKI)《中国知识资源总库》囊括了自然科学、人文社会科学及工程技术各领域知识,拥有期刊、报纸、博硕士培养单位的博士和优秀硕士学位论文、全国重要会议论文、中小学多媒体教辅以及1000多个加盟数据库。主要包括《中国期刊全文数据库(CJFD)》、《中国优秀博硕士学位论文全文数据库(CDMD)、《中国重要报纸全文数据库(CCND)》、《中国企业知识仓库(CEKD)》《中国图书全文数据库》《中国年鉴数据库》《各行业百科数据库》《声像资料数据库 》《《保持共产党员先进性教育》专题数据库》等。万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,覆盖范围:自然科学、数理化、天文、地球、生物、医药、卫生、工业技术、航空、环境、社会科学、人文地理等各学科领域。常见外文期刊有spinger外文期刊、等搜索网站。spinger外文期刊全文数据库收录了近500种学术期刊,内容涉及数学、物理和天文学、化学、医学、生命科学、工程技术、计算机科学、环境科学、地理及经济、法律等学科 EBSCOhost 全文数据库包括:学术期刊集成全文数据库(Academic Search Premier,简称ASP)和商业资源集成全文数据库(Business Source Premier,简称BSP)等九个数据库 对于外文不好的人,可以通过有道搜索引擎下载一个有道词典。有道词典有强大的中外文互译和对照功能。一般的数据库文件,采用的是CAJ和PDF格式,必须下载专门的CAJ和PDF浏览器才可以阅读。常见的数据库有分类检索、初级检索、高级检索和专业检索四种方式。在每种方式的检索结果(包括二次检索的检索结果)里都可以进行二次检索,可以无数次的进行,逐步缩小检索范围,直至检索结果为零。参考文献

[1]【书 名】《信息检索》

【出 版 社】武汉大学出版社 【作 者】黄如花

【开 本】32

【出版日期】2010-05-01 [2]【书 名】《搜索引擎:信息检索实践

【出 版 社】机械工业出版社

【作 者】刘挺

【开 本】32 【出版日期】2010-06-01 【[4]【书 名】《普通高等教育“十二五”规划教材•信息检索与利用》

【出 版 社】科学出版社

【作 者】邓发云、杨忠、吕先竞

【开 本】32

【出版日期】2010-03-走到茶几边,我认出了外婆的杯子,但是哪一个才是妈妈的杯子呢?突然之间,我觉得,自己真得太不了解父母了。当妈妈为我倒水时,我却不知她的杯子是什么样的;当妈妈为我夹我喜欢吃的菜时,我却没想过他们是爱吃淡一点,还是浓一点。。。2009年到了,意味着过去一年的逝去和新的一年的到来。妈妈为我操劳了一整年,仔细想想,现在的我也应该为她做一点点事了。

于是,我决定先将茶沏好再找杯子。学着爸爸平时沏茶的顺序,我先从茶柜里找出了一罐普洱茶,再往烧水的壶里加入水放在电茶炉上烧,接着,我将爸爸已经掰好的普洱茶片拿了两片放在盖碗里,等了一会,水开了,我小心地将水注入盖碗,将盖盖上,把盖碗里第一遍的茶水滤掉,然后再次注水,盖上盖,焖一会才两手并用地将茶水倒入茶海里,因为第一次自己动手,盖碗的烫手是我所没想到的,手忙脚乱的我弄得茶几上一片片的水渍。重复几次这样的程序后,我先帮外婆倒了一杯茶,因为外婆特别喜欢喝茶。当外婆从厨房走出来的时候我已经把茶都给倒好了,这时,外婆才告诉我哪一个是妈妈的杯子。

妈妈起床了,我双手捧着水杯送到她的面前,就像捧着一颗温热的心。妈妈一愣,随即脸上露出了微笑,她一手接过水杯,伸出另一只手将我拉进了她的怀里,那手轻轻柔柔地在我的头上抚摸着,接着妈妈在我的脸上深深地亲了一口。虽然妈妈经常亲我,但这一刻的亲吻却最让我感到幸福。我抬起头对妈妈说:“妈妈快喝吧,要不茶要凉了。”妈妈仰起了脖子,张着嘴巴,“咕咚,咕咚”地喝了几大口。看她那甜蜜蜜的样子,仿佛微苦的普洱茶也是蜜一般甜。

我记得在我小学的时侯,就读过一首曹值的七步诗:“煮豆持作梗,辘毂以为汁;秸在釜下燃,豆在釜中泣;本是同根生,相煎何太急”。那时只知其大意,只知道曹操的长子曹丕继位,他在一些奸臣的影响下,担心他的同胞弟弟曹值篡位,便逼迫曹值在七步之内作出一首诗来,否则处死;结果他的弟弟就在七步之内写出了流传至今的“七步诗”。当时这首诗对曹丕也是一种极大的潮讽。

几个世纪过去了,社会和生活都发生了极大的变化;应该说人的素质也应有所提高;一个人生活在世上,是离不开亲情、友情和爱情的;有人说:打架亲兄弟,上阵父子兵,但是,兄弟姐妹的团结并不是真对与他人打架斗殴,在生活上,事业上应是不可或缺的照应;俗话说“一根筷子容易断,十双筷子断就难”;可见,团结是一种力量,只有团结才有攻不破的堡垒。

然而,就在生活优越的今天,兄弟姐妹往往因为一点小事,一点利益而你争我斗,反目成仇,甚而相残;我和我的朋友在聊天时有时聊及这个问题,有人这样评论:一个人生活在世上,如果不顾亲情,对兄弟姐妹甚至父母于不顾,那他在这个社会上和任何人都不要谈“情”字,特别是友情。

树大分枝,各自成立家庭后,在生活中一些小事是难免发生的,但要看你怎样去对待,把金钱和利益看的太重,那麽,你就会值亲情于不顾;看淡名利,注重亲情才是做人的底线;争则不足,让则有余,在利益和金钱面前,我们何不礼让一点,做一个有道德、有素质、有亲情的人呢?

家和万事兴,团结是一种力量,让我们团结友爱,和睦共处,为个人的事业、为家庭的生活、为国家的兴盛而看重亲情、友情、爱情;把金钱和利益看淡一些吧!人过留名,雁去留声,希望在几十年之后,当你离开这个世界的时侯,留给后人的不是唾泣,而是美愉。

今天是她父亲的生日,她要回家和父亲一起过生日.我很理解她的想法,更理解她的思念之情.是的,她父亲已经六十多岁了,为了子女的成长与幸福,含辛茹苦,真的的不容易.话说过来,人一辈子真的很不容易.人年老时非常希望能够和子女在一起,即使不能在一起,哪怕一个电话甚至一个短信,父母也已经很知足了.我由于长期在外,很想念爸爸妈妈.想起过去,心里真的很辛酸,父母亲为了我们的成长真的付出了很多,然而他们现在又生活得怎么样呢?想起过去的一幕一幕,我心里很难受!我很希望做做子女的我们,踏踏实实地做好每一件事情,不让父母担忧,这是最基本的我们应当做的事情.谈到这里我不由自主地想起一部电影《我的兄弟姐妹》,这是一部关于亲情的影片,暂且不管故事的真实性,主要考究它的内涵.主人公齐思甜和哥哥齐忆苦、妹妹奇妙、弟弟齐天生活在一个不富裕却充满温馨和爱的家。然而在一个暴风雪的夜晚,他们的母亲旧病复发,咳得吐血了。父亲背她去医院,却出了意外,他们俩都亡故了。次日,另一家人搬进了四个孩子的家。性格刚强的哥哥无法忍受这个新家庭的种种,无奈地带着弟弟妹妹离开了家。他们开始四处奔波,寻找落脚之处。当实在没有能力照顾弟弟妹妹的时候,他把妹妹齐思甜送给一对正要出国的夫妇;把弟弟送给他的舅妈一家;又把小妹妹带到一对老人家中请他们收养。他自己和弟弟妹妹们便各奔东西……20年后,齐忆苦在北京当上了出租车司机;齐思甜出国受到良好的教育,成了音乐家;齐天成为东北大学学生;齐妙却当上了舞厅小姐。在北京的音乐会上,思甜蓦然回首的瞬间,音乐霎时凝固了。他们四人拥抱在一起,泪水顺着另一支悠扬的乐曲落下,听众的掌声久久不息……终于,他们有了一次永久的重逢。

齐思甜的父亲是一个音乐教师,他们一家人都生活在音乐的天堂里,这也为后来思甜成为音乐家打好了基础。父亲说:“人生路上有许多困难的事情,只要有音乐在,你的灵魂便不再寂寞。”这位父亲是伟大的,他乐观开朗,以身作则。尽管他和蔼可亲,但同时又是一个严厉的父亲。有一回,齐忆苦偷邻居家的鸡蛋,是为了满足妹妹小小的心愿。而他却因此挨了父亲的鞭子,还罚他站在雪地里很久。在父亲被分配到别的地方边劳动边教音乐时,他对这“莫须有的罪名”并没有悲愤倒下,而是瞒着家人当搬运工挨家挨户送木材,还干各种各样的粗活。他也没有一丝怨言,还对孩子说:“我没事。”懂事的孩子们也拿起了工具,帮父亲干活。他哼着小调,阳光幸福地洒在他们脸上。

可见,这位父亲是多么伟大,他以他的行动告诉了孩子们音乐的重要性及如何面对生活的苦难。

那么,又是一种什么样的力量,使后来的四个孩子重逢,使他们欢聚,使他们接受心灵的洗礼?

毋庸置疑,是亲情。

寒冷的冬天,四个孩子依偎在车站。他们在为下一餐饭而担心着。“哥,我饿。”、“哥,我冷。”、“哥,我想回家……”弟妹们的话刺痛了哥哥。他说:“只要我还有一口气,就不让你们受委屈。”事实上他也这么做了。如果不是亲情,他又何必活得如此累呢?他又怎能忘记,那一晚,父母临走时对他的嘱咐:“你是哥哥,要照顾好弟弟妹妹。”

生活改变了许多人和事,也改变了他们。但是,亲情是始终不渝的。最小的妹妹齐妙长大后竟成了舞厅小姐!她离开原来的家后,养父母去世得早,加上无人看管,就开始堕落下去了。她在20年后与齐思甜相遇时,大言不惭地对她说她满足于当前腐朽昏暗的生活方式。但是自那以后,她回忆起以前的一点一滴,又不免伤感和懊悔。她发现自己对不起所有爱她的人,她的良心受到了谴责。于是,亲情的归来使她的精神方面的巨人复活了!她的灵魂才得以解放。亲情给人以新生,亲情又犹如一支镇心剂。

亲情是心中的太阳,照耀着我们;亲情是温柔的春风,抚摸着我们;亲情如绵绵的春雨,滋润着我们。

亲情是雪,晶莹剔透;亲情也可以是雷,惊天撼地。

亲情可以是灯,温暖柔和;亲情也可以是微弱的烛光,不亮却很辉煌。不管怎么说,亲情一定是无价的宝藏。

没有了亲情,世界变得荒芜、凄凉;没有了亲情,生命则无法繁衍后代;没有了亲情,生活就单调枯燥;没有了亲情,人间也成了地狱。

亲情是沟通两代之间思想交流的桥梁,是一条连结两颗心的纽带。“兄弟姐妹原是天上掉下的水花,谁也不认得谁。但落在地下后,结成一体,结成冰,化成水,就永远也分不开了。”

“临行密密封,意恐迟迟归”,是亲情。“我在这头,母亲在那头”,也是亲情。

浅析网络信息检索 篇3

【关键词】网络信息;检索

随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。

随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。

目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。

另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:

1.智能化

现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。

2.标准化

现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。

3.个性化

科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。

信息检索概述 篇4

(一) 信息检索的定义及基本原理

信息检索 (Information Retrieval) 是指将信息按照一定的方式组织和存储起来, 并根据用户的需要找出相关信息的过程。它包括两个部分:1.存储:将大量分散无序的信息集中起来, 经过加工整理, 使之有序化、系统化, 成为可以查询使用的信息集合。2.检索:借助于查询语言, 将所需要的信息从集合中查找出来。这是广义的信息检索, 狭义的信息检索仅指第3部分, 即从信息集合中找出所需信息的过程。

从本质上讲, 信息检索就是对信息集合与需求集合的匹配与选择。从图2-1的原理图我们可以看到, 要实现匹配与选择, 首先要对信息集合进行特征化表示, 即通过人工或计算机的方法对信息集合进行加工处理, 将原来隐含的、不易识别的特征显性化。这种加工处理工作被称为内容分析与标引, 其中, 用来表示文档特征的词条被称为标引词。另一方面, 在检索时, 也要对用户所提出的信息需求进行分析, 提取概念或属性, 并利用与标引过程相同的标识系统 (检索语言) 来表达需求中所包含的概念和属性, 然后通过匹配和选择机制, 对需求集合与信息集合进行相似性比较, 最后根据一定的标准选出符合需要的信息。

(二) 经典信息检索模型

信息检索的三个经典模型分别是:布尔模型、向量模型和概率模型。在布尔模型中, 文献和查询用标引词集合来表示, 因此, 称布尔模型为集合论模型;在向量模型中, 文献和查询用t维空间的向量来表示, 则称该模型是代数模型;在概率模型中, 用于构建文献和查询模型的机制是基于概率论的, 则称该模型是概率模型。

在过去几年中, 人们已经为每一种经典模型提出了各种不同的改进模型。在基于集合理论的模型中, 又提出了模糊集合理论模型和扩展布尔模型;对于代数模型, 衍生出了广义向量模型、潜在语义标引模型和神经网络模型;概率模型中的一个主流学派就是基于贝叶斯网络的信息检索模型。本文将简要地讨论三个经典信息检索模型。

1. 布尔模型

布尔检索模型的理论经过多年的发展已基本成熟, 被过去甚至现在许多检索系统采用。布尔检索模型表达提问的方式与人们的思维方式相近, 很多人习惯采用这种模式进行检索。传统布尔逻辑检索模型最显著的特点是将用户查询与文献标引进行逻辑的、非数值的比较而获得检索结果, 查询结果一般不进行相关性排序。

对布尔模型而言, 标引词权重变量都是二值的0或1, 查询q是一个常规布尔表达式。用qdnf表示查询q的析取范式, qcc表示qdnf的任意析取分量, 文献d j和查询q的相似度可定义为:

如果Sim (d j, q) =1, 则布尔模型表示文献dj与查询q相关 (实际上是被检索到, 是否相关需要进一步判断) , 否则文献与查询不相关。布尔模型只是判断文献要么相关、要么不相关, 无法描述与查询条件部分匹配的情况。

2. 向量空间模型

向量模型认为用二值权重存在着太多局限, 并提出一种框架以便能够进行部分匹配, 即通过给查询和文献中的标引词分配非二值权重来实现这个目标。这些词语的权重用于计算存储系统中文档和用户查询的相似度, 向量模型依据相似度值将检出文献以递减顺序返回。

在向量模型中, wij是一个正的非二值数, 用以表示索引术语ki在文档dj中的权重。wiq也是一个正的非二值数, 用以表示索引术语ki在查询中的权重。查询向量qv表示为, 文档dj的向量可以表示为, 即查询q和文档dj均可由t维向量表示。我们用文档向量udjv和查询向量qv之间的相似性来评价文档和查询的相似程度。这种关系可以定量表示, 一般用这两个向量间夹角的余弦值来计算, 即:

令N表示系统中的文献总数, in表示包含标引词ki的文献总数, freqij表示术语ki在文献dj中出现的次数。则文献dj中术语ki的标准化频率tfij为:

其中maxlfreqlj为文献dj中出现次数最多的标引词kl出现的次数。此外, 术语ki的逆文献频率为:

运用公式 (3) 及公式 (4) 可得wij的计算方法如下:

事实上, wij有多种计算方法, 上式是最著名的术语加权方案。对于查询术语的权值, Salton和Buckley指出可以采用如下方法计算:

其中freqiq为术语ki在查询q中出现的次数, maxlfreqlq为查询q中出现次数最多的术语kl出现的次数。很多时候, 查询中术语出现的次数是相等的, 均为1, 这种情况下, 公式 (6) 可改写为:。

3. 概率模型

概率模型多建立在相关性理论基础上, 基于对相关性的不同理解, 建立了不同的概率检索模型, 并由此导致不同的排序输出原则。可以说, 相关性原理和排序原理是概率检索模型的理论核心。

对于概率模型而言, 术语权重都是二值的, 即, 查询q是概念空间U的一个子集, 用R表示已知的相关文献 (或最初的猜测集) , 用表示R的补集, 即不相关文献集, 条件概率P (R|dj) 表示文献dj和查询q相关的概率, 表示文献dj与查询q不相关的概率, 则文献dj与查询q的相似度可以定义为:

根据条件概率:

P (dj|R) 表示从相关文献集R中随机选择文献dj的概率, P (R) 表示从整个文献集中随机选择的文献是相关文献的概率;表示从补集中选择文献dj的概率, 表示从整个文献集中随机选择一篇文献是不相关的概率。

因为对文献集的所有文献来说, P (R) 和都是一样的, 所以公式 (8) 可以写成:

(三) 经典模型的简单比较

从上面对三种经典信息检索模型的介绍可以看出:布尔检索模型是一种基于逻辑判断的检索模型, 不能实现部分匹配, 而后两种检索模型则都是把检索问题归结为一种数值比较, 以实现部分匹配。

概率检索模型与向量检索模型在对文献的表示方面, 都是用一系列标引词及其权值的组合来表达。不同之处在于概率检索模型的权值是自动标引时标引词在文献中出现的概率, 而在向量空间检索模型中, 所谓的权值是标引词反映主题的程度, 其中一种常见的方案就是用词在文献中发生的频率来计算, 因而二者又达到了统一。另外, 二者的用户查询也是以一组词及其权值组合而成, 只不过向量空间模型把它作为向量处理而已。最后, 在文献—查询匹配中, 概率模型是计算权值和;而向量空间模型则是依据相似系数。最后的检索结果都代表用户对检索文献的满意程度的一系列数据, 用户可通过设置阈值来控制。

由此看来, 在一定程度上可以把概率检索模型视为向量检索模型。因为概率检索模型都是在假设系统有反馈信息基础上, 并能做出正确的参数估计。在没有反馈信息时, 概率检索模型可视为向量空间模型, 是它的扩充。

参考文献

[1]Ricardo Baeza-Yates, Berthier Ribeiro-Neto.现代信息检索[J].北京:机械工业出版, 2005:24-42.

[2]孙登峰.XML文档信息检索技术的研究与实现[C].北京:国防科学技术大学硕士学位论文, 2002:11-15.

[3]杭月芹.基于文档查询信息的检索系统研究与实现[C].江苏:扬州大学硕士学位论文, 2004:11-15.

浅析信息检索课教学改革 篇5

关键词:信息素养 信息检索 案例教学

1 信息素养涵义

信息素养(Information Literacy)概念的提出和对其的系统研究始于20世纪70年代。保罗·泽考斯基作为美国信息产业协会的主席指出,具有信息素养的人是能够将信息资源应用到工作方面的人,他们在解决问题的时候习惯通过各种信息工具和主要信息来源的技术和能力以形成信息方案。美国图书馆协会的定义:“能够认识何时需要信息并且具有检索、评价以及有效使用信息能力的人才是一个有信息素养的人。”图书管理员协会对有信息素养大学生的定义:第一,能够熟练地、批判性地评价信息;第二,能够精确地、创造性地使用信息;第三,能够有效地和高效地获取信息。总之,解决信息问题是培养大学生信息素养的关键。大学生信息素养是培养知识经济时代创造型人才的要求,也是中国高等教育改革的重要内容。

2 当前在校大学生信息素养的现状

2.1 信息意识不强。绝大多数的大学生利用网络仅仅是进行聊天和娱乐,如果不能够充分地了解图书馆的馆藏并且满足仅仅获取课本知识,这样就造成了既没有扩展课本知识的意识,更没有利用图书馆网络以及数据库解决问题的欲望,从而造成了信息资源的浪费。

2.2 信息能力出现障碍。缺乏信息检索知识,网上搜索仅仅依赖搜索引擎,不了解数据库及数据库资源内容,不知道如何检索数据库,外文数据库检索更是无从下手,对信息资源加工、归纳、鉴别、评价和综合能力欠缺。

3 改革教学内容、教学方法,丰富实践内容,为信息素养教育服务

信息检索的内容随着信息网络环境的不断发展扩大已经发生了翻天覆地的变化,网络检索是其发展的主要标志。随着信息网络的发展还出现了一些网络信息检索工具,其代表有百度、GOOGLE等。网络信息资源具有内容庞杂、类型丰富、分布广泛以及更新速度快的特点,因此,教学的内容和方法也应当顺应网络信息的变化,应当让学生在实践中能够应用检索的知识,这也是对当今大学生的要求。

3.1 为了充实信息检索课程教材的内容,将信息检索与利用代替原来的文献检索课,其内容包括五个方面:第一,介绍信息检索的基本知识;第二,使用信息检索工具,包括少量传统的手工检索工具、计算机信息检索基础、网络信息检索、数据库建设以及多媒体信息检索;第三,信息加工整理评价利用;第四,论文方法写作,包括综述文摘报告立项研究报告以及学术论文撰写方法等;第五,人文素质和信息道德教育,随着信息技术的不断发展,社会中存在很多的不良信息造成侵权信息犯罪时有发生,每个人都应在未来的信息化社会中遵循一定的信息伦理和道德准则来规范自身的信息行为。

3.2 为了提高学生的检索兴趣,在教学过程中应当恰当地使用案例进行教学,通过案例以及演示或组织讨论等在教学中形成互动,从而激发了大家利用检索解决问题的兴趣。教学中选择的案例应当能够充分体现各种检索系统和数据库是以计算机和网络为介质的特性。此外,还应当选择合适的案例提高学习应用各种检索系统的能力以提高学生的检索能力。为了将学生引导到具体的案例研究当中,在编写教学案例时应当根据检索工具的教学目标来进行。通过探索研究来解决各种检索问题并获得相应的知识来提高学生的实际动手能力。

3.3 加强上机实践,重视上机实践教学内容设计。OPAC公共书目检索系统:其功能日益强大,学习信息检索最根本的内容是学会使用OPAC,让学生学会简单检索、高级检索和全文检索。搜索引擎:搜索引擎是学生在学习文献课之前获得学术信息的主要工具。但多数只会简单使用搜索引擎,要引导学生掌握搜索引擎的高級语法。电子期刊与学位论文:以学校图书馆拥有的信息资源为基础,一般有中国知网、万方数据资源系统、重庆维普三家,在教学中应针对专业特色调整教学重点。电子图书:电子图书主要集中在图书馆,通过图书信息的查询,学生能复制图书内容,熟悉工具软件的使用。

4 结束语

为了在达到培养学生检索能力的同时还激发学生学习的兴趣,应当注重培养学生的实际动手能力,这就需要在检索课程中实行案例教学来实现。虽然案例教学取得了一定的成果,但是案例的选择、理论知识与案例分析的有机结合和协调等仍旧是在实施案例教学过程中值得重视的问题。只有老师很好地处理这些问题,案例教学才能取得最佳的教学效果。总之,信息素养教育适应信息社会的发展,主要培养学生的信息素养和能力。信息检索的教学应将信息素养教育贯穿全部教学过程,以提高信息意识为中心,注重培养学生的信息检索能力、信息吸收能力和信息整合能力,突出学生的信息实践能力和知识创新能力,充分发挥学生的主体性和积极性,积极提高教师自身的信息素养。信息检索课只有不断地改革和探索,才能完成其信息素养教育。

参考文献:

[1]赵婷,郭楠,裴允,陈秉塬.浅谈信息检索[J].价值工程,2010(18).

[2]贺茹,李生琦.基于语言本体库的中文信息检索系统的研究[J].价值工程,2007(10).

[3]周杰.高职院校学生信息素养的发展现状及提高措施[J].价值工程,2011(09).

浅谈信息检索 篇6

信息检索(Information Retrieval)又称为情报检索,起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。20世纪50年代,信息检索成为一条专用术语。

1 信息检索的概念

穆尔斯在1948年提出信息检索的概念时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。

当前关于信息检索的概念,可谓百花齐放,百家争鸣。其中代表性的定义有四种:信息检索过程说、全息检索说、概念信息检索说和大量相关信息检索说。(1)信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有序化识别和查找的过程,……广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者”。(2)全息检索说。上海交通大学信息检索专家王永成教授认为:全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动”。(3)概念信息检索说。Chank等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。(4)大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。

2 信息检索的研究

2.1 信息检索的研究内容

信息检索的研究内容,首先在于检索理论的研究,还包括检索语言研究、数据库研究、著录法研究、标引和组织法研究等。

检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原则、相关学科等的研究。当前较为重视信息检索知识体系化、整合化的研究。

检索语言研究原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。现指受控语言和自然语言(未规范的书面语言)。研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、代码标识等。

数据库是多个互相关联的数据的集合,是信息检索系统必不可少的组成部分。研究内容包括数据库建设规划与协调共享、收录信息与文献的筛选、文档结构、维护与更新、版权、市场、效果评价、数据库跨库检索、Z39.50标准等的研究。当前的研究热点:加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。

著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。研究内容包括国内外著录标准与规则、格式、各种信息与文献著录方法、CN-MARC、UNI-MARC、US-MARC、Dublin Cor(都柏林核心)元数据、XML等的研究,目前较重视电子型文献及网络信息的著录研究。

标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。组织法即排检法,是指按一定次序将标引标识(如主题词、分类号)排列起来的反方法。

检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容:服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。目前应加强个性化信息服务研究。

2.2 信息检索的研究方法

信息检索的研究从属于图书馆学与情报学。涉及到自然科学、社会科学、人文科学的许多学科和领域。通用的方法有:观察法、实验法、调查法、模拟法、归纳与演绎法、分析与比较法等;还使用文献计量学法、信息计量学法、目录学、分类学、主题法、著录法、排序法、咨询法等独特的研究方法。

2.3 信息检索的作用

信息检索的作用是多方面的。首先,通过信息检索,能较全面地掌握有关的必要信息。信息检索可以有目的、较系统地获得某一主题的必要信息。其次,通过信息检索,能提高信息利用的效率,节省时间与费用。一般公信度高的,较准确的信息才会被收集、组织或存储在检索工具或数据库中,有目的地查检检索工具所获得的必要信息比直接泛阅信息要快数十倍。第三,通过信息检索的锻炼,能提高信息素质,加速成才。信息素质(Information Lliteracy)是指具有获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息鉴别和利用的能力。信息素质的概念最早是由美国信息产业协会主席Paul Zurkowski 1974年在给美国政府的报告中提出来的。20世纪90年代之前只有为数不多的国家在研究、开展信息素质教育,20世纪90年代之后,引起了各国的广泛关注。以美国为例,目前信息素质教育已成为美国学者特别是美国图书馆界学者研究的一大热点并取得了一定的成果,其中代表性的研究成果是:美国ACRL2001年初批准并在2004年初由全美大学图书馆协会正式通过《高等教育中信息素质能力标准》,并把它作为评估学生信息素质能力的一个指南。而中国的高等教育法则明确要求大学生要具备信息素质。

3 结语

有关信息检索 篇7

MESH是《医学主题词表》简单称呼, 是由美国的一家医学图书馆起的名字。在二十世纪六十年代, 《医学主题词表》第一次出版, 直到现在, 《医学主题词表》是世界上被使用最多, 而且最有代表性的检索语言。Me SH中包含了大约两万五千多个医学方面的主题词汇, 它们是按着所属学科或者词义的意思来分类, 在排列上, 它们的排列是按着字顺和树状结构。概念越靠上, 则它包含的范畴越广阔, 概念越靠下, 它的专业程度则越高。它们的等级, 准确地表示了主题词的从属关系。知道主题词的类别, 可以知道Me SH的历史演化问题, 这样可以对同义词进行扩展, 然后进行检索, Me SH在医学文献的检索功能上有着不可替代的地位。第一, 把语言进行了更规范的分类, 将多种多样的同义词和多义词等都进行了规范化的处理, 每一个概念都只对应一个专有词汇。第二, 确保文献标引与检索用的词语保持一样, 使检索的速度得到提升。

2 国际疾病分类法

在国际上通用的疾病分类法是叫ICD, 最新的版本是经过十次修正而来, 在世界上, 被翻译成几十种文字。但是目前在美国被使用最多的还是第九次的修订本。美国卫生及公共服务部和美国医疗保险等要求, 美国医疗机构在健康保险法案实行范围内的, 都要使用诊断分类编码, 住院的病人, 要使用操作分类编码。

3 临床术语 (SNOMED CT)

SNOMED CT是目前世界上被使用比较广的临床医学术语集, 一开始被研发出来是美国的病理学会。在两千零七年的时候, 它的维护和推广开始由国际医疗卫生术语标准发展组织负责。IHTSDO目前有许多会员, 包括美国、加拿大、澳大利亚及印度等一些国家和地区。这些国家或地区的医疗机构只要通过许可, 就可以使用SNOMED CT而不用支付任何费用。中国大陆地区也是IHTSDO的会员国, 所以可以直接对其进行使用。目前中国国内的SNOMED是翻译过来的电子化产品。其中有十一个板块, 有14万左右的词条。词条中包含的内容很多, 有中英文名及类别符等等。

4 标识符逻辑命名和编码系统 (LOINC)

目前比较国际化的实验室检验项目和临床观测指标术语的标准是LOINC。在当今世界上, 已经有一百多个国家使用它。在我国的实验室数据编码标准也是采用的LOINC。LOINC包含的术语种类很多, 有化学和血液学及微生物学等等。LOINC主要包含的内容有它的代码和它的全称, 并且它的代码和实验室检验项目及临床观测指标是唯一一一对应的。其中它的代码中包含组件和属性种类及时间特征等等。

5 放射医学辞典 (Rad Lex)

为了使对医学影像和放射医学信息的查询更加便捷, 北美的放射医学学会制定了放射学术语集, 其中包含了四万多条的关于医学影像的术语。其中包含了许许多多的方面, 有影像形态术语, 临床发现的术语, 解剖学实体的术语以及图像的获取与展示方面的术语等等。其中医疗影像术语和概念可以进行可视化来展示它们的关系, 这样的做法是为了医学影像和放射医学术语可以保持统一, 使得医学影像的信息可以更好地被分享。分开来说, 想要满足医学影像和放射医学信息的要求, 才能使提供的医学影像和放射学全部信息的术语更加规范准确, 如此一来, 放射医生也可以使用电脑做成更好地放射学诊断报告。这样, 对研究医学影像数据库也提供了便利。并且对医学影像和放射学信息资源更深层次的检索和开发也有所帮助。

6 结语

综上所述, 在对医学文献进行检索时, 检索语言起着不可替代的作用, 对于医学信息的管理也同样重要。检索语文是医学数据库和信息系统语言上的依靠。要规范化医学信息管理, 那么检索语言则必不可少。将医学上的术语进行管理规范, 不仅可以使得医疗信息的记录趋向完整, 同时也保证了其准确和一致。除此以外, 还可以对医学的知识体系进行合理地分类, 实现可以根据概念而进行收录和显示。这样用户在使用时, 也会更加合理系统地进行操作。

参考文献

[1]成福春, 刘华, 房敏.基于SNOMED术语编码两节点之间多路径算法的实现及其对中医术语编码的意义[J].中国中医药图书情报杂志, 2014 (01) .

[2]李斌.SNOMED CT与Open EHR的整合探究[J].医学信息学杂志, 2012 (01) .

[3]李丹亚, 胡铁军, 李军莲, 钱庆, 诸文雁.中文一体化医学语言系统的构建与应用[J].情报杂志, 2011 (02) .

网络信息资源检索方法 篇8

1 网络信息资源

网络信息资源 (Network Information Resource) 是指通过计算机网络可以获取利用的各种信息资源的总和。它包括在Internet这个平台上可以获得的一切信息资源, 如网络数据库、电子出版物和其他的网站、网页等。具体地说是指以数字形式记录, 以多媒体形式表达, 存储在网络和计算机磁介质、光介质以及各类通信介质上, 并借助计算机与网络通信设备发布、存储、传递和利用的信息资源集合。需要指出的是, 网络信息资源不仅包括互联网信息资源, 也包括没有连入互联网, 存在于局域网或内部网的信息资源。

2 网络信息资源检索方法

网络信息检索与传统信息检索的共同点是按图索骥。用户需要知道这些信息存储在哪里, 然后设法获取。在网络环境下就是要知道信息存储地址, 然后通过该地址去访问该资源, 获取信息。那么怎样获取这些地址呢?首先是平时积累, 其次是利用各种网络检索工具查询。

2.1 平时多渠道地收集积累一些网址, 直接按网址进行登录浏览获取信息

网络信息资源的用户大都有自己侧重的研究领域或喜爱的主题, 平时有意识地积累一些与此相关的网址, 如果用户要访问已知地址的信息资源, 可以在浏览器地址栏中输入已知的网站或网页地址, 直接登录进行浏览, 这是一种最常见最简单网络信息资源的获取方式, 简单得似乎不值得一提, 但却是最有用的, 也有人称之为“去信息所在的地方 (go where it is) ”。直接按网址进行查询的方法简单高效, 但获得的网络信息资源仅是沧海一粟, 能够通过这种方法获得的信息非常有限。能否有效地采用这种方法, 关键在于用户平时是否能多渠道地收集相关网址。

2.2 利用网络检索工具查找网址

2.2.1 利用网络资源目录指南 (也称目录型搜索引擎) 查网站地址

为了对互联网这个无序的信息世界加以组织和管理, 使大量有价值的信息纳入一个有序的组织体系, 便于用户全面地掌握网络资源的分布, 专业人员在对网络信息资源进行鉴别、选择、评价和组织的基础上开发出了可供浏览和检索的网络资源目录指南 (也称分类导航) 。网络资源目录指南提供按照分类编制的等级结构式网站目录, 其检索方法为分类浏览方式。它将各站点按主题内容组织成等级结构, 用户依照这个等级循序渐进地逐层浏览, 直至找到所需信息。在各个类别下面, 排列着该类网站的站名和网址链接, 有些还有网站简介, 但并不收录所有的网页信息。分类目录型检索工具的优点是将信息分门别类, 用户可以清晰方便地浏览某一大类信息, 尤其适合那些仅希望了解某一方面、某个范围内信息的用户。网络资源目录指南的缺点是由于它的综述和标引工作一般靠专业人员完成, 其管理、维护跟不上网络信息的增长速度, 导致其收录范围不够全面, 新颖性、及时性不够强, 且用户要受标引者分类思想的控制。加之它对各站点的描述具有一定的局限性且较笼统, 没有文献全文, 只能检索到主题目录和—些简单的描述信息。该类检索工具的代表有Yahoo!、Galaxy、Lycos、网易等。

2.2.2 利用以关键词检索为主的全文搜索引擎查找网页的网址

这是获取网络信息资源最为常规和普遍的方式。全文搜索引擎提供按关键词查询网页地址, 其检索方法为关键词检索方式。搜索引擎的数据库会将一个网站上所有网页全部保留下来。当用户查询的关键词在数据库的网页中出现过时, 该网页就会作为一项搜索结果返回到搜索结果的页面上。该类检索工具的代表有Google、Baidu、Aha Vista、Hot Bot、Excite、天网等。

在分类目录型检索工具的数据库中, 保存的是互联网上各个网站的站名、网址和内容简介;而在搜索引擎的数据库中, 保存的则是互联网上各网站的所有网页 (包括主页和其他网页) 的全部内容, 涉及范围要大得多。利用搜索引擎进行检索的优点是:省时省力、简单方便、检索速度快、范围广, 能及时获取新增信息。由于采用计算机软件自动进行信息的加工、处理, 且检索软件的智能性不是很高, 造成检索的准确性不是很理想, 离他们的检索需求及对检索效率的期望有一定差距。因此, 一般可以用它检索Internet上公开的、免费的信息。

2.2.3 重视网上学术信息资源的检索

为了方便地获取互联网上的信息, 搜索引擎扮演着越来越重要的角色, 几乎所有上网的人都会用搜索引擎来查找信息, 因此很多网络用户认为搜索引擎能提供网络上最为全面的信息。事实上, 没有任何—个搜索引擎能知道网站的每一个网页。由于搜索引擎在网络信息资源采集方法、索引技术和处理能力等方面的问题, 致使越来越多的信息不能被有效地索引而被隐藏起来, 通常人们将用户通过一般搜索引擎无法获取的那一部分网络信息资源称为看不见的网络 (Invisible Web) 或深网 (Deep Web或Hidden Web) 。实际上这些内容本身并非真正隐藏起来, 不是“看不见的”, 只是由于绝大部分网络用户使用信息检索工具很难找到这些内容而已。除非用户知道它的确切位置, 否则就很难找到它。所以说, 网络信息可见是绝对的, 看不见则是相对的。

互联网上存在大量具有学术研究价值的社会科学和自然科学领域的电子资源, 这些信息资源中大部分信息都是搜索引擎无法访问、无法检索和标引的, 它们构成了看不见的网络中大部分的内容。而这些网上学术资源作为网络数字信息资源的重要组成部分, 以其独特的性能, 正日益成为高校教学与科研工作中不可忽视的重要信息资源。因此对网上学术信息资源必须重点检索。

3 结论

掌握网络信息资源的检索方法可使研究者徜徉在丰富的网络信息资源中自由地淘金, 获取到一流的、丰富的网络信息资源。

摘要:本文介绍了网络信息资源的概念, 并对网络信息资源的检索方法进行了研究。

关键词:网络信息资源,检索

参考文献

[1]王细荣, 韩玲, 张勤.文献信息检索与论文写作[M].上海:上海交通大学出版社, 2006.

[2]赵静.现代信息查询与利用[M].北京:科学出版社, 2004.

信息检索模型研究综述 篇9

布尔检索模型 (Boolean Retrieval Model) 是最早提出的一种比较简单的信息检索模型, 其数学理论基础是集合论和布尔代数。它将文档看成由词 (Term) 组成的集合, 如果词典中的某个词在文档中出现, 标识为1, 否则标识为0, 这样词典中的词和所有文档就构成了一个关联矩阵 (Incidence Matrix) 。用户的查询用词和布尔运算符组成的布尔表达式 (Boolean Ex pression) 表示, 布尔运算符有AND、OR、NOT三种, 信息检索系统根据布尔表达式布尔运算的结果来决定是否将文档作为检索结果返回。

布尔检索模型比较简单, 在早期被广泛应用于文献数据库的检索中, 现如今仍然用于某些著名的文献数据库中, 比如Pub Med, 但是布尔检索模型有一些明显的缺陷和不足, 首先布尔检索模型基于布尔表达式的真假对文档进行检索, 每个文档要么和查询相关, 要么和查询不相关, 而无法量化地表示文档和查询相关的程度, 因此无法按照相关性对返回的文档进行排序;其次在布尔检索模型中, 要进行高效率的检索, 用户对自己要检索的话题要非常了解并具备一定的专业知识, 并且能够把自己的信息需求准确地转化为布尔表达式, 这些对于非专业的用户是很难做到的。

布尔检索模型的这些缺陷决定了它不适合应用在现在主流的互联网搜索中。

2 向量空间模型

向量空间模型 (Vector Space Model) 最早由Gerard Salton提出, 如今已成为现代信息检索系统中最常用的模型, Salton等人基于向量空间模型开发的SMART信息检索系统也成为后来信息检索实验系统的样板。

同布尔检索模型一样, 向量空间模型也将文档看成由词组成的集合, 不同的是向量空间模型将文档和查询都表示成由词组成的向量, 与向量空间模型紧密相连的是信息检索领域里最重要的两个概念:词频 (Term Frequency) 和逆文档频率 (Inverse Document Frequency) 。词频是指某个给定的词在文档中出现的次数, 该值通常会利用文档长度、取对数或者最大TF值进行归一化 (Normalized) 。逆文档频率是对一个词重要程度的度量, IDF值越大说明该词越重要。

向量空间模型将文档和查询都表示为向量, 因此线性代数中对向量的运算都可以直接应用于信息检索领域。一个最直接的应用就是通过计算查询向量和文档向量之间夹角的余弦值作为查询和文档的相似度量。

向量空间模型、词频和逆文档频率几乎构成了现代信息检索的基础, 它们简单, 易于实现和量化, 并在实际的系统中取得了较好的效果, 现有的绝大多数商业或实验信息检索系统都是基于向量空间模型。向量空间模型的一个缺点是它的假设词与词之间是独立的, 但这个假设与实际的应用场景是相悖的。

3 概率检索模型

概率检索模型 (Probabilistic Retrieval Model) 最早由Maron和Kuhns于1960年提出, 试图利用概率论来解决信息检索的相关性排序问题, 后来Robertson和Sparck Jones又在此模型的基础上提出了二项独立模型 (Binary Independence Model) 。

概率检索模型的基本思想是给定文档D, 定义一个指示D是否与查询相关的随机变量R (R=1表示D与查询相关, R=0表示D与查询不相关) , 那么将文档按照概率值P (RI10) 降序排序, 即可实现相关性排序。M.Cooper和S.E.Robertson将这一基本思想形式化, 提出了概率排序原则 (Probability Ranking Principle) , 所有的概率检索模型都是基于概率排序原则的, 只是采用的估计概率值P (RI10) 的方法不同。

很多实用信息检索系统采用的相关性排序算法基于概率检索模型, 比如非常著名的BM25和BM25F算法就是以概率检索模型为基础, 这两个算法也会在资讯相关性排序中用到。

4 统计语言模型

由于概率检索模型依赖于一个相关性指示随机变量R, 而在实际的信息检索系统中文档集的相关性信息不容易获得, 因此就有研究者将在语音识别、统计机器翻译中取得巨大成功的语言模型 (Language Model) 应用于信息检索中。Ponte和Croft于1998年首次将语言模型应用于信息检索。

与概率检索模型不同, 给定文档d和查询q, 首先为d建立一个语言模型Md, 即文档中词汇的概率分布, 这样查询q就可以看作Md的一个随机取样, 因此由估算概率p (R=1/D) 改为估算概率P (q/Md) 。

统计语言模型以一个全新的视角看待检索问题, 为相关性排序算法的设计开辟了一个新的方向, 其最大的难题在于要利用大规模的训练数据估计语言模型Md, 虽然研究者们提出了很多数据平滑技术来解决这一问题, 但离实用的距离还比较远, 目前统计语言模型多用于一些实验信息检索系统中, 还没有实际商用信息检索系统采用统计语言模型。

5 结语

本文通过对布尔检索模型、向量空间模型、概率检索模型和统计语言模型四类检索模型的对比分析, 总结出向量空间模型和概率检索模型在实际商用中比较广泛应用, 布尔检索模型和统计语言模型应用较少。

摘要:随着互联网的发展和普及, 信息检索技术越来越多地被应用于互联网搜索, 用户群也由专业人士扩大到非专业网民, 特别是在Google, 百度等商业化搜索引擎取得巨大成功之后, 信息检索领域进入一个全新的蓬勃发展时期。文章主要研究综述了布尔检索模型、向量空间模型、概率检索模型和统计语言模型四类检索模型的实现方法及其不足。

浅析信息检索模型的现状及趋势 篇10

关键词:信息源;信息检索模型;可视化;智能化;一体化

中图分类号:TP391文献标识码:A文章编号:1007-9599 (2012) 01-0000-02

The Status and Trends of Information Retrieval Model

Tian Huan

(Lanzhou Voc-Tech College,Lanzhou730070,China)

Abstract:This article provides an overview of the classification of information sources,a simple description of the concept of information retrieval.For classic Boolean retrieval,vector space retrieval,the probability to retrieve a more detailed analysis,and the direction of development of information retrieval model introduction.

Keywords:Information Sources;Information retrieval model;Visualization;Intelligent;Integration

一、前言

当今世界已经进入了信息化社会,大量的信息渗透到工业生产,社会生活的方方面面。在这爆炸性信息增长中,数字信息占据了最主要的方面,而传统信息载体的贡献比例越来低。有关研究报告显示,2006年全球每年制造、复制出的数字信息量共计1610亿GB,中国数字信息量为127.1亿GB,占全球信息量的7.9%;而受“富媒体”、用户创建内容和16亿网民三大因素推动,到2010年,全球数字信息量预计为9880亿GB,而中国的数字信息量预计为900.5亿多GB,将占全球信息量的9.1%。面对几乎无限的信息量,人们如何快速准确的找到自己感兴趣或者需求的信息是需要解决的一个关键问题。我国电厂检修的分级及检修现状。

二、信息源的分类

信息源的分类形式主要有以下几种:

按载体类型划分:书写型、印刷型、缩微型、机读型、声像型和数字型。

按内容划分:一次信息源、二次信息源和三次信息源。

一次信息源:也叫原始文献或第一手资料。以作者本人的科学研究或研究成果为依据而创作的原始文献,均属于一次信息源。如:期刊论文、科技报告、专利文献、学位论文、会议文献等。

二次信息源:将一次信息源进行加工、整理、提炼、浓缩、标引、编序后所形成的各种目录、题录、索引、文摘等信息源。如:信息检索工具。

三次信息源:对某一专题的一次信息源和二次信息源的有关信息进行检索、筛选、分析、加工,并结合编者的实地调查研究,进行综合分析后重新编制的成果。如:书评、专题述平、学科年度总结、动态综述、字典、百科全书、年鉴、手册、指南等工具书。

三、信息检索模型的概念及经典模型

信息检索模型(IRM,Information Retrieval Model)就是运用数学的语言和工具,对信息检索中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。它决定于三个方面:1.处理查询公式和文档的视角;2.处理查询公式与文档关系的理论;3.查询公式与文档之间的算法。图1表示了IRM的分类体系。

图1 信息检索模型的分类体系

图1所示的经典模型为目前最常用的模型,主要包括布尔模型、向量模型和概率模型。

(一)布尔模型

布尔模型出现于20实际50年代。简单的说它为基于集合论的布尔逻辑运算,是一种基于特征项的严格匹配模型。首先,它建立一个二值变量的集合,如果查询文本中有相应的特征项,则变量可取“True”,反之取“False”。查询由特征项和逻辑运算符(“AND”、“OR”、“NOT”)组成。文本查询的匹配规则遵循布尔运算的法则。布尔模型的主要特点是它实现简单,易于理解,能处理结构化的提问,容易表示统一关系和词组,检索速度快。但是它也具有明显的缺点,传统的布尔逻辑运算比较严格,刚性较强,查询的结果不容易控制,无法提供定量的比较,无法满足特殊的查询要求。目前大多数文献数据库或检索工具都提供布尔运算的检索,如中国期刊全文数据库,维普,baidu或google。

(二)向量空间模型

向量空间模型(Vector Space Model)由Salton等人于20世纪60年代末提出。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。VSM的优点:具有广泛的适用性,检索基于聚类文档,结果可以采用排序输出方式。但其缺点也很没明显:相似度计算量较大,不能处理布尔表达等结构化的查询。

(三)概率模型

Maron与Kuhns最早在1960年提出了概率检索模型。它是一种估计文献与用户需求的相关性、并根据求得的相关性结果提供从高到低的文献排列模型。它的运用是基于四个相关原则:想关心独立原则;词的独立性;文献相关性;概率排序原则。

四、信息检索模型的发展趋势

为满足当今信息检索的需要,除了对传统的信息检索模型进行改进外,新出现的检索模型盖帘主要体现在如下几个方面:

(一)智能化

智能化不仅仅是电脑硬件的发展趋势,也是软件,网络信息检索的发展趋势。智能化的检索模型不在基于机器语言,而是基于接近人类自然语言的检索形式。

(二)可视化

可视化将传统数据库的文本检索模式转为可见的图像方式显示,并且可以表达用户的检索过程。它能使用户更直观的分析文献与检索式语义的关系,有助于用户判断检索过程中的相关文献。

(三)功能多样化

信息检索模型功能多样化主要体现在两个方面:

(1)可以进行多媒体式的检索,不仅能按照文本输入进行检索、更能进行图片、视屏其他输入形式的检索。

(2)检索工具的一体化。面对互联网的不同文化与语言差异,检索工具能提供一体化的检索模式,支持多语言,多语境,促进不同地区、不通语言的用户更加方便的交流。

参考文献:

[1]孙坦,周静怡.近几年来国外信息检索模型研究进展[J].图书馆建设,2008,5

[2]张艳.信息检索模型的比较研究[J].电脑知识与技术,2009,8,5

[3]宋峻峰,张维明.基于本体的信息检索模型研究[J].南京大学学报(自然科学),2005,2,41

[作者简介]:田欢,本科就读于西北师范大学数学与信息科学学院计算机科学与技术专业,现就职于兰州职业技术学院,从事计算机专业教学。

上一篇:北海开发区下一篇:新形势农村义务教育