《信息检索》考试信息

2024-07-18

《信息检索》考试信息(共8篇)

篇1:《信息检索》考试信息

信息检索

16周左右考试,统一安排,开卷 题型:单选,多选,判断,论述 复习重点:第一章

第二章2.1、2.5 第三章3.1、第四章4.1、第五章5.2、第七章 附录1 附录2

2.2、2.3、2.4、3.3.5、3.4 4.3、4.4 5.3、5.4、5.5

篇2:《信息检索》考试信息

考试类型:闭卷

考试题型:单选、判断、名词解释、应用(信息检索过程)考试重点:

1、文献:文献是记录知识的一切载体。凡是用文字、图形、符号、声频、视频记录下来,具有存贮和传递知识功能的一切载体都称为文献。

2、文献类型:印刷型 缩微型 视听型 机读型

3、知识:是在人们对信息进行分析的基础上提供的解决方案。知识管理的主要目的是使信息能够服务于人们的行动和决策。

4、信息:是凭借人的认知能力和经验对数据进行选择、评价、组织和分析的结果。信息管理主要是解决数据的相关性、系统化和规范化的问题。

5、数据:指离散孤立的互不关联的事实、文字、数据和符号,这些资料之间缺乏相关性。

6、文献级次:

零次文献(灰色文献):指非正式出版物或非正式渠道交流的文献。

一次文献(原始文献):凡是著者在科学研究,生产实践中根据科研成果,发明创造撰写的文献,称为一次文献。一次文献是文献的主体,是最基本的情报源,是文献检索的对象。

二次文献:它是将分散、无序的一次文献,按照一定的原则进行加工,整理、提炼、组织,使之成为便于存贮、检索的系统。如目录等检索工具。

三次文献:它是在利用二次文献的基础上,选用一次文献的内容,进行分析、概括、综合研究和评价而编写出来的文献。它又可分为综述研究类和参考工具类两种类型。前者如动态综述、学科总结、专题述评、进展报告等;后者如年鉴、手册、大全等。三次文献源于一次文献,又高于一次文献,属于一种再创性文献。三次文献一般来说系统性好,综合性强,内容比较成熟,常常附有大量的参考文献,有时可作为查阅文献的起点。

高级文献:计算机型文献,如:PTF、HTM等。

7、十大文献源 1图书(Books)2期刊(Periodicals)或(Journal,Magazine)3科技报告(Technical reports)4政府出版物

5会议文献(Conference papers)6专利文献:(patents)7学位论文(Thesis,Dissertation)8技术标准(Technical standards)9科技档案(document)10产品样本

8、文献检索:从大量的文献中查找与特定课题有关的文献的过程。

9、检索语言是根据信息检索的需要,专门用于各种手工和计算机化的文献信息检索与存贮系统描述文献主题概念和研究课题主题概念的表达检索提问的人工语言。检索语言又称为索引语言、存贮与检索语言、文献语言、文献工作语言、标引语言、标引符号、标识系统等等。

9、检索方法:常用法:顺查法、倒查法、抽查法。追溯法:最新引文法。

循环法(分段法):常用法+追溯法

10、检索步骤 :分析课题--选择检索系统--检索途径--检索标识--检索方法--查找文献线索--获取原文 11.信息检索的涵义:从广义上讲,信息检索包括两个过程,一是信息存储(information storage),即信息的标引、加工和存储过程: 二是信息检索(information retrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。

信息检索的本质是一个匹配的过程,即用户的信息需求和信息存储的信息集合进行比较和选择的过程

12、信息存储和检索过程的基本原理

13、信息检索的类型: 按信息检索的内容划分:文献检索 数据检索事实检索概念检索 按信息检索的组织方式划分:全文本检索 多媒体检索 超文本检索

14、检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。

15、检索语言的种类

16、检索方法:查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。

17、拉网法:在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。

18、引文法(跟踪法):文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。

引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引。另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询,其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。

19、常规法:所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信息查找方法。常规法可分为顺查法、逆查法和抽查法。

20、排除、限定和合取法

这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。

21、分类检索的步骤

(1)分析待检课题,确定其学科,并弄清学科间的各种关系。(2)查出待检课题的分类号(工具简单时可以省略)(3)选择适当的检索工具

(4)进入检索系统后选择分类号途径,并在对话框内输入分类号,开始检索。(5)对比题目,阅览相关信息,选出所需信息,并下载相关信息。(6)原文的索取

22、检索技术

(1)布尔检索(boolean retrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。

(2)截词检索(truncation retrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。截词符多采用通配符“?”、“$”、“*”(3)邻近检索(proximity retrieval),又称为“位置检索”、“词位检索”、“全文检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。

(4)字段限定检索:是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。

例子:(minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=English 这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。

23、信息检索的基本步骤

24、确定检索词

1.切分:是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。

2.删除:是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。3.替补:在进行切分、删除后,对检索词进行替换和补充。4.组合 ①概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。② 概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化=数字电视机。③概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。

④概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。⑤增加

(1)增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑“非”的方法增加限义词。

(2)分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。

提取检索词首先是切分、删除,其次是进行替补、组合和增加。当检索结果信息量过多时

原因:选用了多义性的检索词 截词截的过短,输入检索词太少 应该使用“与(AND)”的使用了“或(OR)”;优先运算符‘()’使用错误。考虑缩小检索范围。方法如下:(1)采用专指性强的主题词,减少同义词 同族相关词等相关性不强的检索词。(2)增加限制概念,采用‘AND’算符连接检索词或进行二次检索。(3)使用字段限定,把检索词限定在题目主题词等主要字段。(4)缩短检索年限,限制检索结果的文献类型 语种及出版国。(5)使用‘NOT’算符,排除无关概念。(6)调整位置算符,由松变严。(7)改模糊检索为精确检索。

当检索结果信息量太少时

原因:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于生僻具体;没有使用截词算符;位置算符和字段算符使用的过多 使用过多的‘AND’考虑扩大检索范围方法如下:

根据词表的分类结构体系口占关键的检索词,用扩展按钮增加同义词和相关词并用‘or’算符连接这些词(2)降低检索词的专指度,可从词表或检出文献中选择上位词或泛指词补充道检索式中(3)减少检索年限 文献类型 语种以及出版国的限制(4)取消某些限制过严的字段限制 位置算符限制(5)在词干相同的单词后使用截词符(6)改精确检索为模糊检索(7)同时使用拼写正确的词 以及拼写错误的词或存在多种普遍错别字的词作为检索。

计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识的匹配过程。计算机信息检索的系统构成 : 服务器 通信网络 检索终端 数据库

篇3:《信息检索》考试信息

随着信息技术在各行各业中的深入发展,以及医院运行机制的改变,医院信息化建设也得到了进一步的完善与提高,网络化已经成为一种普及的医院运营管理模式。医院信息系统对卫生体制的改革与发展起着至关重要的作用,已成为现代化医院必不可少的重要基础设施。医院信息系统的作用大多体现在信息检索与信息统计方面。

1 信息检索的方法

首先我们要明确什么是信息检索,信息检索就是把信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。通常狭义的信息检索是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询,信息检索有两个特点:一个是查全,一个是查准。这两者往往难以兼顾,查全不可能很准,准又不可能很全面。在实际操作中,我们就要根据检索的要求、检索的需要去权衡,从而确定相对最合适的检索方法。一般信息检索的方法都采用的是布尔逻辑检索即“and”“but”“or”,其中“and”指的是两者全包括,“but”是排除后者,“or”指的是两者中有一个成立就可以,在使用过程中要注意灵活应用,如我们想查某医院2014年出院的肿瘤患者的人数,便得同时满足两个条件,一个是出院日期得是2014年,另一个出院诊断应为肿瘤,这样才能完全的满足检索条件。查询编码时,可在“诊断编码”或“手术编码”条件下,输入所需检索信息的“首字母”或“中文名称”,并根据要求选择相应细目或者扩大到类目、亚目进行相应检索,检索中直接录入编码检索时不需要在下拉框中选定编码条目,而“首字母”或“中文名称”检索必须注意要在下拉框中选定编码条目,否则检索结果为空。多条件检索可在“检索条件”目录下进行,也可在“检索条件”和“并发条件”目录下同时进行。在“检索条件”目录下,同一条件为“or”的关系,不同条件为“and”关系;在“并发条件”目录下,所需并发条件与“检索条件”目录下同一条件为“and”关系,也可通过改变逻辑运算符改变。

2 信息统计的方法

医院的功能分为临床医疗科室、医技检查科室、行政后勤科室,所以我们要统计的种类很多,如各科室的收入、各科室的就诊人数、医疗设备的利用率、某月病床的利用率,某种病一年的发病人数等,我们可以根据各种条件进行各种统计,如统计某医院出院病人中,患有甲状腺恶性肿瘤,同时又患有甲状腺功能亢进的患者人数。首先要提取字段:甲状腺恶性肿瘤,诊断编码:C73,然后再进行逻辑组合。这里注意要有并发条件,即甲状腺功能亢进—诊断编码:E05。这是包含有排除条件的统计,还有包括条件的统计,如:请统计2006年1月1日到2015年12月31日10年间所有干燥综合症,不包括肾活检的人数。首先我们要提取字段包括出院时间:20060101-20151231和干燥综合征—诊断编码:M35.0然后进行逻辑组合,并排除条件:肾活检—手术编码:55.2901,55.2301,55.2401。还有一些统计是需要进一步计算的,如算总费用或平均值,如请统计某医院2015年12月,住院天数超过30天的患者人数。并计算其平均住院日及平均住院费用。首先我们要提取字段有出院时间:20151201-20151231和住院天数≥30,并在结果里提取字段住院天数和总费用,最后进行统计计算,求得平均数。统计的方法很多,条件也多种多样,在医院信息系统中的应用也是比较重要,我们要灵活使用。

随着卫生部信息化工作领导小组《医院信息系统基本功能规范》标准的加强,使医院各个信息系统将有效的整合在一起。面对如此多的信息系统和海量的数据存储应发挥数据仓库的作用,提出有价值的信息,这并不是简单意义上的病人资料管理、数据采集、数据检索、数据统计、报表输出等功能及系统之间的数据无缝连接,统计工作也将不再是毫无关联的数字,而应在数据仓库的基础上进行数据挖掘和深加工。医院信息系统中信息检索和信息统计使医院的信息真正做到对各种病情随年份、季节及每个病人病情的预见性和感知性。这样才能使临床信息学做到信息为病人服务、为医生服务、为医院的管理者服务。

摘要:目的:探讨医院信息系统中信息检索与信息统计在临床诊断中的应用。方法:从医院信息系统、门诊医生工作站、住院电子病历、实验室信息系统、医学影像信息系统等几个方面在医院发展和存储的大量数据进行信息检索和信息统计。结果:大量数据进行深挖掘后显示出,临床诊断水平由此得到了进一步提高。结论:医院信息系统在临床中信息检索与信息统计的应用有助于进一步提高临床诊断水平,提高医生的业务水平。更便于卫生行政部门进行卫生质量的评估。

篇4:浅析网络信息检索

【关键词】网络信息;检索

随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。

随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。

目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。

另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:

1.智能化

现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。

2.标准化

现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。

3.个性化

科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。

篇5:信息检索考试题

一.选择题(共10题,每题1分)

1.在公开出版物中,当前的()反映的信息内容可能最新。A.学位论文 B.标准文献 C.期刊论文 D.报纸文献 2.()属于一次文献。A.期刊目录 B.学位论文 C.综述 D.文摘

3.为了了解我国某学科发展概况,在收集、分析资料的基础上写出的综述报告属()。

A.一次文献 B.二次文献 C.三次文献 D.零次文献

4.在文献信息传递的载体类型中,()是历史最悠久的文献形式。A.印刷型 B.缩微型 C.声像型 D.电子型

5.如果希望查找“对宋词韵律的美学思考”这个课题相关的文献,较好的检索词应该是()。

A.宋词,韵律,美学,思考 B.宋词,韵律,美学 C.宋词,美学,思考 D.宋词,韵律,思考

6.课题“计算机在情报检索中的应用”的中图法分类号及类名为()。A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索

7.利用读秀学术搜索数据库查找2014年出版的余华著的图书有多少种?

A.27 B.19 C.26 D.7 8.如果要获得针对职业技能方面的培训,需要以下哪个数据库?

A.爱迪克森数据库 B.畅想之星 C.读秀学术搜索 D.起点自主考试系统

9.利用宁波工程学院图书馆馆藏目录查询龙应台的《亲爱的安德烈》一书馆藏数。

A.5 B.6 C.7 D.9 10.计算机检索中,运用以下哪个运算符可以实现精确检索?

A.* B.# C.? D.“”

二.简答题(共10题,共90分)

1.运用维普期刊的高级检索功能,检索关键词“信息检索”同义词,写出其中的三个。(10分)

2.写出学位论文《新中国的旧史学》的授予单位、授予时间、哪一个导师指导而撰写的学位论文。(5分)

3.使用EBSCO Academic Search Premier数据库的高级检索界面,检索在文献题目中,不含儿童(child或者children),而含有词组电视广告(电视television ,TV.广告 advertisement,advertising)的相关文献,要求: 给出检索词,给出一篇相关文献的题录(题目中需出现概念检索词,书目信息中篇名、作者和出处须完整。(20分)

4.把下列信息改成标准的文后参考文献信息形式:

Stevens,S.S.,“Measurement,Psychophysics,and Utility”in C.W.Churchman and Philburn Ratoosh(eds.),Measurement:Definitions and Theories.NewYork:Wiley,1863.(10分)

5.检索2008-2009年间,发表在专家评审过的期刊上有关社会保障研究的学术论文,写出其题录信息。(5分)

6.以下是一篇学术论文的文后参考文献:

Emerging Intelligent Information Security Systems.By: Ahlm, Eric.Scientific Computing, Jan2006, Vol.23 Issue 2, p26-27.请在EBSCO的ASP数据库中找出全文(5分)

7.写出会议论文《WTO金融服务中的承认制度及其实践》的相关信息,包括作者、会议名称、会议地点、会议时间。(5分)

8.课题“study on the market management is Chinese”中,哪些宜选作主要检索词、辅助检索词、禁用词。(10分)9.利用百度高级检索功能查找近一年来“信息检索”的PDF格式的文献,以截图形式保存下来。(5分)

篇6:CNKI信息检索考试真题

5、查找有关本专业的会议文献三篇,并分别写出会议名称、作者、举办者、举办时间、举办地点。

6、利用CNKI引文数据库查找本专业某教师论文被引用情况,记录总 被引频次和其中两条引证文献的简要信息。

7、在CNKI“工具书全文数据库”中查找有关本专业的工具书,请列 举五种工具书的名称。

篇7:信息检索期末考试简答题

学术论文一般由哪几部分构成?各部分的写作规范分别是什么

1、标题:准确、精炼的技术术语表达的创新点名称

2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。

3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。

4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。

5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。

6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。

7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。

8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。

专利的新颖性、创造性、实用性各自含义,中国保护的专利类型

1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。

2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。

3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。中国保护专利的类型:发明、实用新型、外观设计

在数据库检索中,当检出的文献数量较少时,分析其可能原因,以及采用何种对应措施,才能增大文献信息的检出量?(至少列举5种情况)

答:在数据库检索中,当检出的文献数量较少时,可能是以下原因造成的:

① 检索词拼写错误;②遗漏重要的同义词或者隐含概念;③检索词过于冷僻具体;④没有使用截词算符;⑤位置算符和字段算符使用过多;⑥使用过多的逻辑“与”,过于严格。⑦被检索的数据库数量较少因此需要扩大检索范围,增加文献信息的检出量,具体措施如下:减少“与(AND)”算符,以0R加入相关检索词;以0R加入所有下位叙词;加入上位叙词;采用上位类;排除数据库中的普遍概念。②在词干相同的单词后使用截词符(?);③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。④修正错误的检索词;⑤补充足够的问义词,⑥把叙词作为紧邻关键词使用;⑦选用登录数高的索引词;⑧放弃单库检索,选择跨库检索 文献检索的类型有哪些?

答:1.数据检索:是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。数据信息检索的对象是数值性数据,即具有数量性质并以数值形式表示的量化信息。例如:检索“某种材料的电阻,某种金属的熔点”。

2.事实检索:是将存储于数据库中的关于某一事件发生的时间、地点、经过等信息查找出来的检索。它既包含数值数据的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。事实信息检索的对象是已经存在的各种事实的有关资料,它是数值信息和系统数据信息的混合。例如:检索“鲁迅生于何年 ”。

3.文献检索:是将存储于数据库中关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二次文献信息为工具,以原始文献的出处为检索目的,可以向用户提供有关原文献的信息。例如:“关于商标保护有哪些参考文献? 谈谈如何提高文献检全率和检准率?

答:提高检全率的方法:

(1)降低检索词的专指度,可从词表或检出文献中选一些上位词或相关词补充到检索式。

(2)调节检索式的网罗度,如删去某个不甚重要的概念面。(3)进行族性检索,可用分类号或采用一组近义词、同义词或者相关词用OR连接在检索中。

(4)进行截词检索,可以采用后截断、前截断、前后截断等方法。(5)增加检索途径,如将主题途径与非主题途径结合起来使用。(6)取消限制过严的前后缀符、限制符。

提高检准率的方法:

对于需要提高检准率的课题,主要从缩小检索范围入手,可采用以下方法。(1)提高检索式的专指度,增加或换用下位词和专指度较强的自由词。(2)用AND连接一些进一步限定主题概念的相关检索项。(3)限制检索词出现的可检字段。

(4)用位置算符控制检索词的词间顺序与位置。(5)利用限制符、前缀符限制输出文献的外表特征。(6)利用NOT限制与情报提问不相关的文献的输出。(7)进行加权检索,从定量的角度加以控制。

信息素质;作为具有信息素质的人必须具有一种能够充分认识到何时需要信息并有能力有效地发现检索评价和利用所需要的信息解决当前存在的问题的能力

信息检索是指依据一定的方法从已经组织好的大量有关信息组合中直接查找并获取特定的相关信息的过程。

CSSCI是指中文社会科学引文索引

会议文献是指各种学会协会研究机构学术组织等绝版的各种研讨会学术讨论会等于学术相关的会以。

学术规范是从事学术活动的行为规范是学术共同体必须遵循的准则是保证学术共同体的科学高效公正运行的条件 他从学术活动中约定成俗的产生成为相对独立的规范系统 2学术评价规范:学术评价应坚持客观公正公开的原则

学术评价应以学术价值或社会效益为基本准则

学术评价机构应坚持程序公正标准合理采用同行专家评审制实行回避制度民主表决制度建立结果公示和意见反馈机制。

3、学术批评规范:应大力倡导学术批评积极推广不同学术观点之间的讨论相互交流与学术争鸣。学术批评应该以学术为中心以文本为依据以理服人。

4、学术论文是某一学术课题在实验性理论性或预测性上具有的新的科学性研究成果或创新见解和知识的科学记录或是某种已知原理应用于实际上取得新的进度的科学总结用以提供会议上宣读交流讨论或学术刊物上发表或用作其他用途的书面文件。

5学术论文的结构 题名 作者署名和工作单位 摘要 关键词 前言 正文 参考文献

分类语言:是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法。主要包括体系分类语言和组配分类语言两种 布尔逻辑检索:逻辑与(and):可用*代替,含义是检出的记录必须同时含有所有的检索词。基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。例如A AND B或a*b含义是检出的记录中必须同时含有A和B两个检索项///逻辑或(OR)可用+代替,是用来组配具有同义或同组概念的词,如同义词、相关词等。其含义是检出的记录中,至少含有两个检索词中的一个。基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,还有一个去重的功能。例如A+B或A OR B其含义是数据库记录中任何一条记录只要含有A和B中任何一个检索词即为命中的文献///逻辑非(NOT)可用—代替,检出的中只能含有NOT算符前的检索词,但不能含有其后的词,基本作用是:缩小检索范围,提高检索结果的查准率但不一定提高文献命中的准确率,一般只起到减少文献输出量的作用

EBSCO,目前拥有100个数据库。ASP是比较适合大学使用的数据库

篇8:《信息检索》考试信息

目前,搜索引擎提供的信息往往远多于用户所需的信息,原因是基于关键词的搜索会返回包含该关键词的所有网页,而这些网页往往跨越多个领域,其中会有许多内容属于用户根本不感兴趣的范围。为使因特网用户快速查询出感兴趣的信息,有必要将分类技术运用到搜索引擎当中。网页间的超链接提供了网页间内在关系的信息[1],很明显,如果网页A指向网页B,那么网页A的作者会认为网页B包含有价值的信息或者他们之间存在某些关系。已经有一些分类工作涉及用超链接及HTML结构来提高网页分类的精确率[2,3,4]。

与传统数据相比,Web数据有如下特点[5,6]:数据不由任何组织和个人控制,没有固定的数据模型;数据的组织是任意的,只要能在Web上展现即可;数据的内容和表现方式是动态变化的;数据量巨大并且增长迅速。虽然搜索引擎已经成为成熟的商业应用,极大地方便Web信息的查找和获取,但他还存在着以下问题[7,8]:大量非专业用户,难以使用简单查询串准确表达自己的信息需求,从而造成大量查询结果并不是用户需要的信息;信息搜索过程和结果集排序对所有用户使用同一标准,难以使不同知识、工作背景的用户都满意;新近提出的自动分类的搜索引擎服务[9]是一种新型的、自动语义匹配、自动抽取主要栏目,二级栏目,模块化的Web应用,并能通过Web被发布、定位和调用。他着眼于网页之前间的超连接关系,通过蜘蛛程序获得网站拓扑结构和分类体系进而完成Web信息的自动归类,从根本上不同于基于特征向量法的网页自动分类技术。自动分类的搜索引擎服务能帮助简化信息搜索,减少用户自己分类的时间,使合作更容易。

基于这种新型自动分类思想,从底层蜘蛛程序获得相关分类信息和网站拓扑结构,抽取了网站分类体系,设计了Web信息归类算法,并将多项信息分类展示,为用户有效地在WWW上搜索信息提供方便高效的支持。

2 网站分类体系抽取

2.1 研究思路

基于这样一个基本原则:尊重信息发布者对信息的理解。Web信息通常以Web站点的形式聚集,这是WWW信息空间中信息组织的重要特点。Web站点通常都是遵循网站设计者(信息发布者)的意图,按照一定的原则对站点层次、栏目进行组织、规划,而Web信息发布者对Web内容的理解直接体现于Web页面所归属的栏目分类。通过抽取网站本身的栏目层次信息、网页信息以及其拓扑结构,就能够实现分类体系的确立及Web信息的自动归类。当用户检索信息时,可以对检索结果分类组织和展示,使用户能够根据信息类别快速定位感兴趣的信息。

网站采用的分类体系通过网站导航体系展现。通过网页分块、块导航置信度分析获取导航栏,进而获取网站导航体系,在导航体系分类语义分析的基础上,获取网站的分类体系。

2.2 获取网站分类体系

为了方便用户浏览信息,网站通常设有自己的分类体系。网站结构按该体系进行信息的分类组织:在显要位置给出各类别信息的入口,不同类别的信息处于网站结构中不同位置,同类信息出现在相近的位置,信息发布时根据其类别选择位置。同时,网站结构的组织,总是从网站首页开始,通过索引页面,链接到最终信息页面。

2.2.1 基于网页分块的导航栏提取

按照网页页面版式,内容相关度等特征,可以将页面按区域进行分割,这个过程称为网页分块。网页分块后,页面上各个分离的区域称为块。同一块内的内容,联系比较紧密;而不同块之间的内容关系则比较松散,在语义上也不连贯。按照作用与功能,块可以分为导航块、正文块和辅助块。导航块是指主要完成网页间导航功能,他所包含的主要内容为超链接;正文块主要功能为表现网页主体内容,索引页面的正文块通常为指向其他页面的超链;辅助块是指诸如网站版权信息说明等,是对本网页起到辅助作用的块。

(1) 网页分块:

HTML提供了多种控制格式的标签,其中一些有空间上和逻辑的分隔作用。如,

,
,等,他们表现为较大的空行,能够起分隔段落的作用;


,他表现为水平线,人们习惯用他分隔关系松散的章节;还有一些标记在空间上表现为分隔,同时也被用来表达在意义上比较独立的文字段,例如:

,
,等。研究及试验表明,网页HTML文件中连续出现多个有空间或逻辑分隔作用标签是前后内容不相关的标志。

HTML文件中连续出现的,有空间或逻辑分隔作用标签集合称为间隔,记为I。其中连续的含义是指在标签和标签之间不出现可在网页上显示的文本,包括超链接文本和普通文本。对于有分隔作用的标签Ti,按照其分隔内容的程度,赋予权重WTi。间隔I内标签权重的累加值WI,即undefined,称为间隔权重,Ti,i=1,2,…,n,为I中的有分隔作用的标签。设定间隔权重阈值为某一常数C,权重大于C的间隔称为分割,记为D。分割把页面HTML源文件分成多个段,每段HTML对应了显示页面的一个区域,从而网页页面被分成若干区域,这样就实现了网页分块,由网页得到了块。

分块过程中,有两种方式实现分块的灵活性调控:调整有分隔作用的标签的权重,可以适应不同的页面设计风格;通过间隔构成分割阈值大小的设定,可以控制分块的粒度,满足不同应用对分块的需求。

(2) 网页块导航置信度分析:

完成页面分块后,需要从块中确定哪些是导航块。研究大量网站发现:导航块通常位于页面的上部或左部,对应HTML源文件中前面的部分,所以导航块必定在前面的块中;导航块中的主要内容为超链;导航块中各超链的显示文字比较整齐,简短;导航块中各超链的URL比较整齐,一般不含query。

2.2.2 导航项分类语义判断

在得到页面导航块后,解析导航块的HTML代码,提取各导航项的显示文字,链接地址。分析显示文字的分类语义:如果有足够的分类语义,则为分类类别;如果明显缺乏分类语义,则丢弃;对无法做出明确判断的,则根据试验效果做选择。每个类别都与其对应原导航项的超链关联,这样每个类别都有对应的类别位置,这是后续Web信息归类的基础;类别关联的超链还指明查找下一层类别的页面。从导航块中抽取栏目信息的流程如图1所示。

从分块程序给出页面块集合中的第一个块开始,逐块检查内部各链接项的文本、URL特征等,并进行总体分析,直到确定出一个导航块,返回。

3 Web信息自动分类

Web信息都通过其所在页面关联到网站结构中的位置,在获取网站的分类体系后,通过信息位置和类别位置的对应,可以实现Web信息的归类[10]。下面先给出几个基本定义:

定义1:信息位置,Web信息所在页面对应的节点在网站的结构图中所处位置称为信息位置。

定义2:类别位置,类别都关联了超链,这个超链指向页面对应的节点在网站的网站结构图中所处位置称为类别位置。

定义3:信息和类别对应关系,如果从某一类别的类别位置出发,沿着网站结构图,能够到达某Web信息所在信息位置,则说这个类别和这条信息有对应关系。

定义4:信息-类别距离,如果某信息和某类别对应,在网站结构图中,信息的信息位置到类别的类别位置的最短路径的长度,称为该信息到与该类别的信息-类别距离。

网站的组织中,总是从网站首页开始,通过索引页面,链接到最终信息页面。网站组织信息有如下特点:不同类别信息处在网站结构中不同位置,同类信息处在相近位置,首页导航栏给出各大类信息的入口,大类对应的索引页面指向小类对应的索引页面,小类对应的索引页面指向本类其他索引页面和最终信息页面。考虑到类别的层次性,与子类对应的信息必然与父类对应。

采用如下策略确定信息归属类别:在所有与某一信息对应的类别中,信息类别距离最短的类别,作为信息的归属类别;如果有多个与该信息对应的,有相同信息-类别距离的类别,则其中层次最深的类别作为信息归属类别;如果有多个信息-类别距离相等,且层次相同的类别与该信息对应,则取其中分类语义最大的类别作为信息的类别。

这种分类的依据是信息发布者对信息类别的判断,更加准确和权威;分类体系保持了层次性,便于知识学习和表示;分类过程不需要自然语言理解和统计分析,效率更高。设计的算法为:

(1) 根据网站结构图,找出所有指向信息所在页面对应节点的页面,放入集合F;

(2) 判断F集合中是否包含对应分类体系中某类别得节点;如果有,则找出其中层次最深,包含分类语义最大的类别,将信息归入该类,程序结束,否则到(3);

(3) 在网站结构图中,找出所有指向F集中节点的节点,并将这些节点的集合作为新的F集,返回(2)。

4 检索结果的分类和层次化展示

采用Java以及动态Web技术实现,以Tomcat 5作为JSP/Serlvet容器,Oracle 9为数据库服务器。以sohu,sina等网站的具体栏目题材实现检索结果的分类和层次化展示示例如图2所示。

5 结 语

充分挖掘信息发布者的思想,重点考虑网站内部通过链接表现的组织结构;根据网站组织结构提取网站分类体系,通过设计的Web信息归类算法,完成信息的自动归类;实现检索结果的分类和层次化展示。提高查到准确信息的效率,为终端用户提供更为方便的服务和应用。

参考文献

[1]Jennifer Farkas.Document Classification and RecurrentNeural Networks[C].Proceedings of the 1995 Conferenceof the Centre for Advanced Studies on Collaborative Re-search,1995:21-27.

[2]David Gibson,Jon M Kleinberg,Prabhakar Raghavan.Infer-ring Web Communities from Link Topology[C].UK Con-ference on Hypertext,1998:225-234.

[3]Michael B Cline.Using HTML Structure and Linked Pagesto Improve Learning for Text Categorization[D].Depart-ment of Computer Sciences,University of Texas atAustin,1999.

[4]Yin-Hung Kuo,Man Hon Wong.Web Document Classifi-cation Based on Hyperlinks and Document Semantics.PRIC-AI Workshop on Text and Web Mining,2000:41-44.

[5]Bing Liu,Kevin Chen-Chuan Chang.Editorial:Special Issueon Web Content Mining[J].ACM SIGKDD ExplorationsNewsletter,2004,6(2):1-4.

[6]Devanshu Dhyani,Wee Keong Ng,Sourav S Bhowmick.ASurvey of Web Metrics[J].ACM Comput Survey,2002,34(4):469-503.

[7]Chia-Hui Chang,Ching-Chi Hsu.Integrating Query Ex-pansion and Conceptual Relevance Feedback for PersonalizedWeb Information Retrieval[J].Computer Networks and IS-DN Systems,1998,30(7):621-623.

[8]Liu F,Yu C,Meng W.Personalized Web search by mappinguser queries to categories[C].Proceedings of the EleventhInternational Conference on Information and KnowledgeManagement,McLean,2002:558-565.

[9]彭彤,张斌,郑怀远.WWW上的基于信元模型的信息集成[J].小型微型计算机系统,2002(7):23-27.

上一篇:海南维财投资管理下一篇:一年级上语文《口耳目》教案