2009-12中国建设银行信息技术类笔试

2024-07-19

2009-12中国建设银行信息技术类笔试(共7篇)

篇1:2009-12中国建设银行信息技术类笔试

建总信息技术类笔试

今年银行笔试面试严重扎堆出现,本来就没offer了,今天居然农行省行、交行、建行总行笔试都在上午撞车了,郁闷,考虑再三,决定去笔建行。

早上六点就起床,做地铁赶去广州市第25中学,到那的时候学校门都还没开。吃个粉之后,进入学校考场。话说建行的考试规矩真对,感觉跟考六级一样,监考老师貌似也是中学老师,监考的一板一眼的。

8点30多正式拿到试卷,大致扫了一眼,分为四个部分,计算机综合知识、英语、行测、时事政治类。考试共三个小时。

计算机综合考的比较广,和软设的题目差不多类型,包括计算机系统结构方面,(比如6位10进制数,用二进制浮点型表示,阶码最少多少位? 应该大概是在2^20以内,那么阶码应该要能表示到20的最少为,那就是5了----自己想法,仅供参考;芯片扩展),网络方面(网络设备网关、网桥、集线器、中继器等的所属层次;七层网络模型中的一些东西;ftp的两条链接:数据连接和控制连接),软件工程(主要是软件工程的各个过程涉及到的东西),操作系统(换页算法,进程线程等),数据库(视图;两段锁;权限控制;数据库管理);数据结构(冒泡排序,快速排序,双向链表;双端栈--这个考的比较隐蔽点;);再就是c,c++语言方面的(构造函数,析构函数,++,等)

感觉考的一般,大部分都见过,还是有一些不确定

英语方面,在另一个帖子里面有三个完整的英语题目,似乎一个是MBA联考的原题,一个是2009年6月的六级原题,还一个是清华博士入学考试的题目。第一个比较惨,ripped up这个单词意思理解错误,导致后两题错误,对第一篇作者的意思和情感倾向完全弄反了,导致只对了一题,其他四个全错,不过还好,后两篇全对了。

行测方面,大概是是五个数字推理题,比较难,好几个想半天不知道怎么解。题目有比如2,10,5,8,3,20,(),5 ; 和95,88,71,61,50,();两个图形推理,图形推理算简单点的。接下来还有一些计算题--应该是奥数类的题目,(如狗追猫,开始相差9米,猫跑5步的路程与狗跑3步的路程相同;猫跑7步的路程与兔跑5步的路程相同,问要多少米才能追上;如果将两个钟同时调到标准时间,结果在24小时内,快钟显示10点整时,慢钟恰好显示9点整,则此时的标准时间是多少?--答案应该是9点四十五;一只船从甲码头到乙码头往返用了4小时,回来时顺水比去时每小时多行12千米,因此后两小时比前两小时多行18千米,那么甲乙两个码头距离是多少?--答案应该是45;还有几个忘了);然后还有一些文字推理题;最后一部分是图表题,都是些快速计算题,(比如很多货物的进出口,要计算一种货物比另一种多多少,哪种最多;电信方面的一些固话,移动通信等等的增长率,效应比较;公路,火车,飞机的客流量,受益比较,都是这种题)

考到这个部分的时候,监考老师已经在提示只剩下15分钟了,还剩下一个图表计算题,和后面的众多时事政治题。额滴神啦,就开始随便瞎算了。

最多一部分是时事政治方面,不像农行总行最后一部分基本上都是考农行自己的介绍类的,都是些什么法律,某某国家会议的一些宗旨意义等,这个部分基本上都是看哪个顺眼就选那个,专拣好的选。

在监考老师宣布交卷的时候,终于勉强搞定。

篇2:2009-12中国建设银行信息技术类笔试

第二有些是书面考试的主体有些,总共135道标题,分为行测、工作素质、专业常识、英语几个有些,行测有言语了解与表达、判别推理、数量联系、材料分析,本年行测的标题感觉难度通常。工作素质和专业常识分为单选和多选,没有考建行常识的有关标题,却是考了蛮多实事标题。其间专业常识涉及到数据结构,网络技术和C++程序等,共有45道标题。英语有三篇阅览了解,共15道标题,静下心来做仍是没那么难的。根本没涉及到金融管帐什么的常识。

第三有些是性格测试,这个照常规没什么好说的啦,是如何就怎样选,很快就能够搞定的。

综合类的标题估量需要核算的标题比较多,由于写完后发现考综合类的筒子还在拼命的做,我们也都是蛮拼的。

最终祝我们都好运啦!

篇3:2009-12中国建设银行信息技术类笔试

我国虽然已成为世界饲料生产的第二大国, 但由于在饲料生产和市场管理等环节的质量安全控制技术还不完善, 伪劣原料、添加剂产品在市场上仍有出现。目前我国的饲料相关检测技术大多为化学法, 不仅比较费时, 分析设备使用费用高, 检测结果可靠性也差, 不能满足快速鉴别的需要, 而且所用试剂废弃后污染环境。因此, 急需研究运用快速、准确的监测手段, 及时跟踪、检测和评价饲料产品的真伪与质量。

近红外光谱分析技术以前主要作为一种快速的定量分析技术, 用于饲料常规品质 (如水分、蛋白质、脂肪、氨基酸等指标) 的检测。张萍研究员带领的研究团队发明的该技术采用化学和计量学的方法, 能够提取出产品近红外光谱的“指纹”特征, 并确定合格产品的特征指纹图谱, 或进一步建立判定模型, 从而通过图谱比较或模型识别, 对添加剂产品进行真伪鉴别或进一步判断产品是否合格。利用该技术判定时间短, 检测结果直观, 鉴别准确率高。

篇4:2009-12中国建设银行信息技术类笔试

11月份。全国规模以上港口货物吞吐量完成5.9亿t,同比增长17%,其中沿海港口完成3.9亿t,同比增长16%。

1煤炭运输

本期,全国范围内煤炭供应依然偏紧,煤价呈现全面上涨态势。进入12月份,华中、华东等地区电厂接连出现电煤紧张状况,华东沿江多数电厂存煤在警戒线上下。受经济持续向好,冬季采暖需求推动。加上煤炭涨价预期,很多电厂在库存量还未到警戒线的情况下就加大补库力度,这更进一步拉动煤炭需求。由于大风大雾造成封港天数增多,有效运力损耗较大,近期在秦皇岛港锚地船舶约有200艘,运力相对紧缺。本期,沿海主要航线煤炭市场运价继续飚升。12月16日,秦皇岛至广州、秦皇岛至上海、天津,京唐至上海航线运价指数分别报收于2 482.98点、3 385.43点和2 845.75点,较上月同期上涨93%,126%和119%;煤炭市场运价分别为108元/t,92元/t和89元,t,分别比上月同期上涨48元/t.41元/t和42元/t。

业内人士认为,煤炭价格不断攀升将对2010年年度电煤合同价的上调起到推动作用。另外,电厂存煤今后一段时期内仍旧紧张,煤炭需求依然旺盛,预计沿海运输市场相对高位的运价还将维持月余。

2金属矿石运输

在钢材市场振荡向好运行的指引下,钢厂对铁矿石的需求量有增无减。11月份,我国铁矿石进口5 107万t,继续保持较快增长,国内沿海金属矿石运输市场货源充足,二程矿船运价稳中有升。12月16日,上海航运交易所发布的金属矿石货种运价指数报收于1 098.6点,比上月同期上涨6%。

3原油及成品油运输

本期,原油和成品油运输市场行情平稳。12月16日,上海航运交易所发布的原油和成品油货种运价指数分别报收于1 486.55点和1 210.37点,均与上月同期持平。本期,华东市场成品油购销清淡,水路出货平稳;华南市场需求表现平淡,炼厂开工率偏低。

4粮食运输

篇5:2009-12中国建设银行信息技术类笔试

会展场馆:广州锦汉展览中心

所在地区:广州

主办单位:中国国际贸易促进委员会物流分会

中国物流学会广州大为展览有限公司

广东省物流协会

会展类别:物料搬运与物流技术展

联系方式

电话: (86-20) 38913705 38808367

传真: (86-20) 38913016

联系人:冉红强先生13725446505

篇6:一种基于概念集的信息检索模型

面向专业领域的信息检索作为信息检索的一个分支,区别于一般性的信息检索系统,一方面更加注重借助领域内的知识来描述特定的检索;另一方面利用各种领域知识建模方法(如基于本体论建模方法、基于概念的建模方法等),建立高质量的领域数据源,从而提高专业领域内信息检索的准确率和召回率。近几年,国内外面向专业领域的信息检索相关研究成果主要有:

(1)哈尔滨工业大学,杨艳琴,在2002年,对目前生物学领域最丰富的TAO知识库进行研究和分析,设计并开发了基于TAO的生物领域信息检索系统[1]。

(2)中国农业大学,赵庆龄,在2003年针对农业知识本体论基础性研究的特点,结合土壤与农业化学专业知识,建立了土壤领域知识体系,并在此基础上开发了基于网络的农业科技信息智能检索系统[2]。

(3)中国科学院自动化研究所,宛根训,在2003年对商标领域图像数据库进行研究, 开发出高效、 准确的商标自动检索系统[3],减少传统的关键词检索方法存在的缺陷,提高商标注册的准确性并缩短注册的时间。

(4)浙江大学机械电子控制工程研究所,叶冰,陈鹰,在2002年设计了一个面向机械行业的信息搜索系统[4]的实现框架,探讨了行业信息的特征表示、特征匹配的实现这个前台信息数据的主动获取过程;同时也讨论了集中式行业信息数据库的信息检索这一后台信息检索问题。

在对面向专业领域的信息检索进行系统研究后,我们发现,除了上述的一般性问题外,信息检索系统使用者的专业知识程度有着较大的差异性。一个专业人员很容易地选用适当的词汇来描述他所要查找的信息的特征,而对于一个非专业人员来说,想做到这点是非常困难的。所以要求每一个信息检索系统的使用者都能够准确地选择相关专业领域词汇作为关键词将真实的信息检索意图描述清楚,是一件十分困难并且不现实的事情。因此,将专业领域内的概念作为一种语义层面的表述方式引入到面向专业领域的信息检索中,可能会得到很好的效果。但是现有基于概念的信息检索模型在概念空间的建立以及概念表述方式上等方面的处理方法都过于复杂,限制了它的发展。

1面向专业领域的概念集模型概述

1.1概念集模型的定义

概念集是概念集合的简称。由此,我们可以这样定义面向专业领域的概念集是由一组面向特定专业领域的概念组成的集合。在这里,概念被定义在一组特定专业领域范围内,描述同一语义的单词集合,同时忽略单词的时态,词性,单复数等单词本身的词法上的区别。但是,作为不同的描述统一概念的单词,和概念的相关性是有差别的,有的词描述的能力强一些,有些词则要弱一些。因此,实现一个完整的概念描述,还要通过把对其进行描述的单词赋予一定的权重来体现出这一特点。

例如在航空科学这一专业领域,可以包含很多概念,如:空气动力学、流体力学、航空材料,等等。那么航空科学领域的概念集就可以由上述概念构成。具体到其中的某一概念,比如空气动力学,则是由一组在航空科学领域内,描述空气动力学这一语义并且赋予权重的单词组成的集合,比如空气动力学这一概念可以定义为如下:{(超音速, 0.2),(流体力学,0.3),(边界层,0.2),(非粘滞性, 0,2),(马赫数,0,2),(亚音速,0.1)}。

1.2面向专业领域的概念集模型的概念权重算法

对于面向专业领域的概念集模型的概念权重算法的选定,方法有很多种[5,6,7]。在这里我们使用TFIDF算法[8]进行概念权重的计算。

F(Term Frequency)是索引项频率,记为TF(fi,dj),基本思想是利用索引项在文档中出现的频次为索引项加权,索引项在文档中出现的次数越多,该文档与检索就越相关,二者的相似度越大。考虑到不同文档的长度等因素,还需要对文档频率进行归范化处理。

IDF(inverse document frequency)是逆文档频率,设是文档集中文档的数目,DF(fi)是文档集中含有fi的文档数目,IDF的定义为:

undefined (1)

或undefined (2)

使用IDF的对数而不直接使用IDF是为了使这个权值对文档总数N不特别敏感。可以看出,IDF倾向于在少数文档中出现的索引词,其基本思想是在大多数文档中都出现的索引项区分文档的能力较低,应给以较低的权值,如一般情况下,“的”、“了”等高频词对判定文档与检索的相关程度时贡献不大,这正是文本分类时希望去除的停用词(stop words);反之,在少数文档中出现的索引项区分文档的能力较高,应给以较高的权值。

TF从局部上反映了单个文档与检索项之间绝对的相关性,而IDF则从整个文档集的全局出发,从全局上反映了每个文档与检索项之间相对的相关性,侧重考虑了文档之间的差异性。TFIDF的权重计算方法综合考虑了TF和IDF,采用二者的乘积为检索项的权值:

wij=TF*IDF(fi,dj)=TF(fi,dj)×IDF(fi) (3)

具体采用何种方法计算索引项的权重,则要看实际的具体应用。如果当我们不注重文档之间的差异性或者只有单文档的情况下,只看重文档与文档中索引项的相似性时,只用TF也能取得不错的效果。

2基于领域概念集的信息检索模型

我们将面向专业领域的概念集模型与经典信息检索模型结合,提出基于领域概念集的信息检索模型。

2.1经典信息检索流程

经典的信息检索流程[9]可以通过图1说明。

首先,在一个检索发起前,我们需要定义文本数据源,也就是检索内容的数据库。对这个数据库的要求一般包括以下的方面:①需检索的文本,②在文本上可执行的操作,③文本的模型(比如:文本的结构、可以检索的元素、等等),一般通过数据库管理器完成。文本操作器转换原始的文档生成它们的逻辑视图。逻辑视图定义后,数据库管理器会建立文本的索引。索引是一种十分重要的数据结构,在大量的文本上进行检索,索引对性能有着十分显著的影响。合理地定义文本数据源并建立相应的索引,时间资源和空间资源的节省将会在接下来的检索过程中明显的体现出来。

当文本数据源和相应的索引建立完成后,我们可以进行检索了。用户指定的检索需求通过上文提到的文本操作器转化为相应的文本,然后被发送到查询操作器。它将用户的检索请求进一步转化为机器可以接受的检索形式,然后获得检索到的文档。这一过程的快慢取决于之前建立的索引的效率。在检索结果返回到用户之前时,检索到的文档将会按指定的相关性算法进行排序。最后,用户在这组排序好的检索结果集合中检查并获得有用的信息。与此同时,信息检索模型将已经得出的检索结果和用户对之的相关性评价作为依据,不断修正检索模型和检索结果集合。利用用户反馈信息,重新构造新的查询,以逐渐优化查询的检索效果。但是,在特定专业领域进行的搜索,上述经典模型准确率和召回率的低下,一直很难有效的解决。

2.2集成领域概念集的信息检索模型

一般性信息检索系统(如Web检索)的主要服务对象定位于普通大众用户,检索的来源庞大繁杂,包含了各种各样的信息内容。因此检索结果泛而不精是它的主要缺点。而在企业级应用中,用户使用信息检索系统一般都有较强的专业领域针对性。对于这些应用用户来说,他们除了希望检索的结果全面准确,更希望局限于自己指定的专业领域之内,而不是泛泛的结果。但是在特定领域进行搜索,缺乏相应领域背景知识的人员,一般很难得到令人满意的搜索结果;而相应领域的专业人员的通过搜索获得满意内容则要容易得多。面向专业领域的概念集模型的作用正是为了解决上述问题,信息检索模型结合领域概念集的主要目的,就是通过一种可行有效的方法,减小用户真实查询意图和缺乏背景知识支撑的查询表述间的距离,来帮助并满足使用者进行专业领域信息检索的需求。

图2是结合了领域概念集模型和经典信息检索模型的新型信息检索模型。

区别于图1,图2中增加了两个模块:概念集和领域专业知识。通过这两个新的模块,我们将面向专业领域的概念集模型和经典信息检索模型结合了起来。在检索发起之前,特定领域的专业知识通过概念集模型,实现结构化的组织和存储。在查询生成后,排序模块不仅计算文档和查询间的相关度,而且还要计算文档和概念,查询和概念间的相关度。最后合并成完整的相关度排名序列。

3面向专业领域的概念集模型的构建

3.1领域概念集模型语料源的选定

面向专业领域的概念集模型的构建需要特定专业的语料库进行构建。从对概念的定义我们知道,概念是一组特定专业领域范围内描述同一语义并且按规则赋予权重的单词的集合,所以构建面向专业领域的概念集模型的语料库应该从形式上尽量满足这一特点,其形式为:单词 + 单词语义描述。

我们发现,辞典的形式符合上述要求,并且从语义内容上来说,辞典中词条解释的大众认可度也是其他语料库很难能达到的。所以专业领域的辞典作为语料库进行构建面向专业领域的概念集有着十分明显的优势。因此,我们推荐使用专业辞典或者其他形式及内容均与其类似的语料库作为面向专业领域的概念集模型的构建语料库。

3.2领域概念集模型语料源的XML表示

XML是一种元语言(Meta-Language),所谓元语言指语言本身还可以用来制定产生另一种新的语言。XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。XML是一种用于定义其他与特定领域相关的、语义的、结构化的标记语言的句法语言。XML描述了一类称为XML文档的数据对象,和解析这些数据对象的计算机程序的行为。XML保留了SGML的优点,除去了SGML一些复杂不常用的部分。在扩展性方面,允许用户自定文件格式,定义DTD的特性,它允许用户根据某些通用的原理来定义标记,新创建的标记可在DTD中加以描述。一个定义完整的标记可作为一个基本元素使用,而一个基本元素类似于面向对象技术中的一个类,它可以被其他元素使用,能够以开放的方式结构化地表示数据信息。为了更便于计算机的处理和表示我们选用了XML,语料源经过XML形式化表述后的简化实例:

1

Ablation cascade is a term used for a possible catastrophic orbital event.

其中,标签中的内容为一个概念语料源,标签中内容为该概念语料源的编号。标签中的内容为概念语料源的具体文本。

4相关性排名策略算法

4.1基于领域概念集的相关性算法

图3是对文档、概念、查询这三者的关系一个很形象的表述。在基于领域概念集的信息检索模型中,

查询、概念、文档之间的关系是这样的:首先,模型计算查询和概念集中每个概念的相关度(Sim(c,q)),然后再计算概念集中每个概念同文档集中每个文档间的相关度(Sim(c,d)),最后在上述计算结果的基础上,通过公式(4)算出查询和文档间的相关度(Sim(d,q))。

对于公式(4),下面我们给出详细的说明:经典的信息检索模型,比如向量空间模型、Okapi模型[10]等,都可以用来计算概念集和查询间的相关度(记为Sim(ci,q)),以及概念集和文档间的相关度(Sim(ci,dj))。在基于领域概念集的信息检索模型中,我们选用了向量空间模型,容易得到查询和文档间的相关度如下:

undefined (4)

∑(Sim(ci,dj)×Sim(ci,q))为概念集中每一个概念与查询q的相关度及与文档d的相关度乘积的加和。undefined为概念集中每一个概念与查询q的相关度平方加和的二次方及概念集中每一个概念与文档d的相关度平方加和的二次方的乘积。则定义∑(Sim(ci,dj)×Sim(ci,q))与undefined相除的结果Sim(dj,q)为查询q与文档d的相关度。

4.2混合相关性算法

在上一小节研究结果的基础上,我们进行了一些数据实验,发现在某些查询的信息检索结果比较中,使用经典信息检索模型的结果反而要优于使用基于领域概念集的相关性算法模型。在对这些数据结果分析的过程中,我们总结出这样一个现象,并不是每一个概念和查询都很相关。但是基于领域概念集得相关性算法,即公式(4),却使得领域概念集中的每个概念都参加了运算。所以最终获得的查询和文档间的相关度不可避免的引进了弱相关概念带来的噪音信息。针对这一问题,我们对相关性计算方法进行了改进。经典模型相关性计算方法的优点是直接反应查询和文档间相关度,所以在使用基于领域概念集的相关性算法的同时,合理的结合经典模型的优点,可以形成一种更加有效并且灵活的混合相关性算法,我们给出了如下公式

Sim(dj,q)=S2(dj,q)(S1(dj,q)+w) (5)

公式(5)中,S1是经典模型计算方法获得的相关度,S2是基于领域概念集的相关性算法获得的相关度,w为经验参数。这样,文档d和查询q的相关度表示为S1与S2+w的乘积,一方面引入了领域概念集模型的优点,另一方面保留了经典模型中直接反映查询和文档间相关性的特点。对于公式(5)的合理性,我们将在最后的实验中给予验证。

5基于领域概念集的信息检索评测实验

在相关实验中,我们选用了TREC提供的航空科学领域和计算机科学领域的语料库,作为测试用语料库来源。领域概念集我们使用第三节所介绍的方法建立了航空科学专业领域的概念集,共生成了279个概念,其中词条14806个,总共读取词条307500次。为了验证基于领域概念集的信息检索模型和经典信息检索模型相比,有助于改善搜索的效果,我们选用了以下常用的经典模型OKAPI模型,并将其与领域概念集结合成为新的模型:

⇨ OKAPI模型 OKAPI模型是概率模型中很著名的模型之一,是由现代概率信息检索模型的创始人之一、微软剑桥研究院的Stephen Robertson开发的,OKAPI在TREC 评测中屡屡获得好成绩。

在上述模型的基础上,我们设计了下面的比较实验:

⇨ OKAPI模型和基于航空科学领域概念集的OKAPI模型在航空类语料库环境下查准率—查全率比较。

在这里,我们使用了使用一组取值间隔为0.1的查全率值,依次为0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0,作为查全率的取值点。然后在上述每个查全率取值点计算相应的查准率值。

OKAPI模型和基于航空科学领域概念集的OKAPI模型在航空类语料库环境下查准率—查全率比较实验数据结果见表1。由实验结果我们可以看出,在0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8这9个查全率取值点上,基于航空科学领域概念集的OKAPI模型的查准率都要高于普通的OKAPI模型。

为了更形象地分析上面的得到的数据结果,我们在用拟合查准率—查全率曲线的方法进一步进行说明。在图4中,横坐标轴为查全率,纵坐标轴为查准率,图中坐标系中实线和虚线分别为表1中OKAPI概念集模型及OKAPI+概念集模型数据拟合成曲线。

在图4中,我们可以看到,在计算机学、航空科学两个标准语料库的测试环境下,使用基于领域概念集的OKAPI模型与经典OKAPI模型相比,查准率和查全率都有一定程度的提升。

通过对基于领域概念集的信息检索模型和经典信息检索模型进行全面的评测,验证了基于领域概念集的信息检索模型对面向特定领域搜索效果是相对较好的。

6结束语

随着信息科技的不断发展,信息检索技术的应用范围日益广泛。与此同时,使用者对信息检索的新需求不断增加。本文结合对经典信息检索模型的研究,提出了面向专业领域的概念集模型及基于领域概念集的信息检索模型,设计并实现了相应的信息检索系统原型,以此为基础进行了数据实验。实验结果表明该模型确实对在专业领域进行的信息检索进行了优化,从而为企业知识管理系统提供了一种新的信息检索方法。

参考文献

[1]杨艳琴.领域本体查询体系结构和实现技术研究.硕士学位论文.哈尔滨工业大学,2002.

[2]赵庆龄.基于ontology的土壤知识体系智能检索系统的设计与Web实现.硕士学位论文,中国农业大学,2003.

[3]宛根训.自动商标检索系统.硕士学位论文,中国科学院自动化研究所,2003.

[4]叶冰.陈鹰,行业产品的Internet信息搜索研究.计算机集成制造系统-CIMS,2002,8(6):488~490

[5]M.A.Andrade,A.Valencia.Automatic extraction of keywords from scientifictext protein families.Bioinformatics:1998,14:600~607

[6]A.McCallum,K.Nigam,J.Rennie,and K.Sey-more.Building domain-specic search engines withmachine learning tech-niques.in Proc.AAAI SpringSymposium on Intelligent Agents in Cyberspace,1999.

[7]Etzioni,O.,Cafarella,M.,Downey,D.,Popescu,A.-M.,Shaked,T.,Soderland,S.,Weld,D.S.and Yates,A.Methods for domain-independent information extraction from the web.An experimental comparison.In Proceedings of AAAI,2004.

[8]C.Zhai.Notes on the Lemur TFIDF model.http://www.cs.cmu.edu/~lemur/1.1/TFIDF.ps2006-12-29

[9]R.Baeza-Yates and B.Ribeiro-Neto.Modern Information Retrieval.Addision Wesley,1999.

篇7:2009-12中国建设银行信息技术类笔试

对于企业信息资源来说,访问控制是一个重要的保护机制。允许合法的用户访问数据项,阻止非法的用户访问数据。访问控制机制是一种加强访问限制的方法,一个访问控制机制允许主体对于资源的访问权限,这种方法可以通过工作流得到扩展。假设一个工作流的当前状态为允许访问权限,这个典型的访问控制机制从二维(主体、客体)扩展到三维(主体、客体、工作流状态)。访问权限依赖于工作流的环境,这个概念称为动态访问控制。

这样做,工作流的实施变得更加安全,因为非授权数据存取和数据误用的可能性(例如一个文件的非授权读操作)将减少。

(定义在ISO标准7498-2)动态访问控制是一个提供授权的机制,这种机制的中心是关于保密性的,但是这里也支持数据项的完整性和非拒绝性,因为只允许授权主体操作位于系统内的数据。此外,访问控制机制需要识别具体的事例,因为只能给主体分配执行工作流中一项活动所必需的权限。可以在一个网中对工作流进行详细的定义,在计算机学科中已经对状态转换控制进行了深入的研究,通过状态转换控制对工作流的描述具有下面的优点:

(1)状态转换控制非常适合于描述具体的动态模型。一个工作流连同它的执行对于连续的时间坐标,在活动执行时间构成了一个不连续的集合。

一个状态转换控制必须有一个固定的数学定义,它的语法和语义是准确定义的。

(2)如果一个工作流映射到一个状态转换控制,确定的特性(例如:一个结尾标记的可达性)是数学可证明的。有大量的分析方法来确认状态转换控制。

2工作流管理

工作流管理是计算机科学中的一个重要的研究领域,一个工作流管理系统(WFMS)是一个软件系统,它支持工作流的管理、模拟和执行。一个工作流是一个可执行的业务过程。在执行一个工作流之前,必须以一种方式来描述工作流,这个描述称为工作流描述。一个工作流管理系统(WFMS)最重要的部分是工作流引擎,当根据工作流说明产生一个工作流的事例时,工作流引擎负责执行工作流。

3状态转换控制的定义和形式

这一节介绍状态转换控制的基本定义:

定义1(状态转换控制)一个状态转换控制是一个三元组 N=(P,T,F)。P是场地的有限集。T是转变的有限集,有:P∩T=φ。下面的关系F定义为:F⊆(P×T)∪(T×P),设y∈P∪T。°y称为y的前集,定义为:°y:undefined,y°称为y的后集,定义为:y°:undefined。

图1说明了一个状态转换控制的实例,这个网由场地p1,…,p4和变换t1,…,t4组成,P、T和F的集合定义如下:undefined,undefined;

undefined

一个状态转换控制的图形解释是一个二叉图。场地只能和变换联系,变换也只能和场地联系。将场地描述为圆环,将变换描述为方形。一组元素(x,y)∈F的图形解释是一个从x到y的箭头。在(t1,p2)∈F中,一个箭头将变换t1和场地p2相联系。

一个变换的前集和后集是一个场地集合,这个集合可以是空的。一个场地的前集和后集是一个变换的集合,这个集合也可以是空的。前集和后集的实例:

undefined

定义2(状态转换控制的行为):一个非空集M:M⊆P称为状态转换控制的一个标记。一个变换T称为在标记M下是活动的,如果有:undefined

一个活动变换是可以激发的,如果一个变换t激发,M改变:undefined。

新的标记M1定义为:M1:=(M°t)∪t°.

状态转换控制的第一个标记称为起始标记。

图形上一个标记通过填充的圆圈来表示。根据下面图1中的实例来说明状态转换控制的行为。设起始标记为:undefined,一个环放在p1处,变换t1和t2被激活,如果t2激活,环从p1移动到p3,变换t4现在也被激活。在t4激活下,环移动到p4。形式化为:undefined。

随着启动标记undefined,对于状态转换控制来说有另外两种可能执行的线路:undefined以及undefined。

对于工作流的详细说明,表示次序、平行、条件性的概念是非常重要的:

一个次序可以通过在状态转换控制只有一个入口和出口的变换和场地的情况进行模拟。平行基于变换具有多个出口的场地的情况,第三个概念——条件性——基于场地具有多个变换,在图1中场地就是这种情况。决定激活哪一个变换让工作流引擎去判断,这要基于数据项的值。

4用状态转换控制说明工作流

这一节根据定义1、定义2来描述工作流和状态转换控制之间的联系。通过一个状态转换控制说明的工作流称为状态转换控制工作流,下面称为工作流网。

一个状态转换控制工作流具有下面的特性:

(1)工作流中的活动和状态转换控制中的变换相符合,执行的活动和变换的激活相符合。

(2)一个状态转换控制的标记描述了一个工作流的当前状态。控制环表示了工作流的状态,例如:哪一个活动被激活。工作流关系说明了环如何在网中移动。

到目前为止还没有限定哪一个主体和数据项及具体的活动相联系,为了详细说明,我们必须定义哪一个主体可以执行一个活动同时通过活动的执行需要产生哪一个数据。这通过三个函数得以实施:

(3)函数将变换映射到一个主体集合,这些主体可以执行和变换相联系的活动。

形式为:Ts:T→P(S)φ。

P是全集表示(所有子集的集合),S是主体的集合。工作流引擎自身是一个有效的主体。

(4)执行一个活动将产生数据,为了执行一个活动,一个主体使用已经存在的数据项。一个变换的数据输入和输出集合通过两个函数Din和Dout定义:Din,Dout:T→P(D)。

这里,D是数据项集合。空集合是一个有效的函数值,在这种情况中,不需要执行数据或没有通过执行活动产生数据。

图2说明图1随着变换的属性延伸,这些变换通过函数Ts、Din和Dout来定义。在图2中,两个集合S,D:undefined变换t1只能通过子集s1执行。几个子集可以分配给一个变换,例如变换t4可以通过三个子集s1,s2和s3执行。通过执行t3的子集s2产生d3。Din和Dout的值可以是空的,例如:Din(t2)=φ,在这种情况中,不需要执行和这个变换相关的数据。

5动态访问控制与静态访问控制的对比

访问控制的目的是允许合法的主体访问数据项,这要通过访问控制机制来实施。一个访问控制机制Z允许主体访问数据项。如果S是主体的集合,D是数据项的集合,R是访问权限的集合,Z可以定义为函数:Z:S×D→P(R),根据这个定义,一个访问控制机制是二维的。最常用的访问权限是读(=r)和写(=w)。除了读和写以外,还有其他的访问权限,例如:数据项可以被执行、更新、或追加其他数据项。

如果根据当前工作流网的标记得出访问权限是允许的,则访问权限随着状态转换控制中的标记而改变。如果在访问控制机制中考虑了工作流网的标记,Z必需在维数上得到扩展,二维访问控制机制变为三维访问控制机制。新的访问控制机制称为:Zsdt,Zsdt可以定义为一个函数:Zsdt:S×D×T→P(R),可以解释为:我们假设一个主体s对于数据项d需要一个特别的权利r,为了使用Zsdt,对于活动的变换,访问控制机制检查工作流网的当前标记。设t是一个活动变换同时s∈Ts(t);①如果r∈Zsdt(s,d,t),则特权r是允许的,如果t不再激活,则r被取消。②如果rZsdt(s,d,t),则权限r不允许。

从二维到三维的扩展增加了记录数。|Zsdt|=|S|*|D|*|T|,同时|Z|=|S|*|D|,|…|表示一个集合中的元素,在图2的实例中,动态访问控制机制Zsdt是一个3×4×4组合,总共有48个记录,它们中绝大多数是空的,Z有12个记录。

在传统的访问控制机制Z和动态的访问控制机制Zsdt间作比较导致下面的等式:

undefined

式(1)一定成立,因为所有从Z中得到访问控制权限也应当包含在Zsdt中。(1)式说明Zsdt允许的访问控制权限比Z更严格。然而,所有的主体应该具有执行分配给他们任务的所有许可权。在Zsdt中数据误用的风险低于在Z中数据误用的风险,由于:Zsdt(s,d,t)⊆Z(s,d)。

这是式(1)的直接后果,在绝大多数情况中,Zsdt(s,d,t)是Z(s,d)的一个真子集。从这个角度来说,一个使用动态访问控制权限的工作流比没有使用动态访问控制权限的工作流更安全。

如果我们应用了一个具体的安全策略,访问控制机制可以直接从工作流详细说明中得到。定义3(读、写安全策略)读、写安全策略成立,如果主体执行一个活动是合法的,那末就允许主体访问数据输入项的读操作和数据输出项的写操作。

如果应用读、写安全策略,访问控制规则可以表示为:

undefined

这里s∈S,d∈D,同时t∈T,Zsdt(s,d,t)={r,w}是不可能的,因为一个数据项在它可以被读之前必须被写入。在一个数据项中重写或追加信息应该产生一个新的数据项。

为了说明Z和Zsdt之间的差别,我们将把读写安全策略应用在图2的例子中。说明Z的访问控制机制看上去存取权限是静止的,例如:基于工作流的状态。通过一个实例进行解释。结合图2和表1(如下表)进行分析。

静态情况:主体S3需要对于d2的写权限,因为它可以通过执行t2产生d2。当执行t4时,主体需要对于d2的读权限,因此有:Z(S3,D2)={r,w}。

动态情况:Zsdt(S1,d4,t4)={w},由于主体s1在t4变换时可能需要对于d3的写权限。Zsdt(s2,d2,t3)={r},由于s2需要对于d2执行t3的读权限。

另一方面,读写安全策略是基于R={r,w}同时忽略了所有他的访问权限。由于Zsdt可以直接从工作流网中得到,不需要工作流的详述就可以获得增加的安全,所以具有高度的实用性:在一个WFMS(工作流管理系统)中,工作流引擎可以随着访问控制机制延伸来加强传统的工作流读、写安全策略。

参考文献

[1] R.Holbein. Secure Information Exchange in Organizations-An Approach for Solving the Information Misuse Problem. PhD thesis, 1996.

[2]N.R.Adam,V.Atluri,and W.-K.Huang.Modeling and Analysis of Workflows Using State transform control.Journal of In-telligent Information Systems,Special Issue on Workflow and Process Management,1998,10(2):131~158

[3]W.van der Aalst.The Application of State transform control to WorkflowManagement.The Journal of Circuits,Systems and Com-puters,1998,8(1):21~66

[4] V.Athuri and W.-K. Huang. An Authorization Model for Workflows. In Proceedings of the 4th European Symposium on Research in Computer Security. Springer,1996.

[5]E.W.Mayr.An Algorithm for the General State transform control Reach-ability Problem.SIAMJournal,1984,13(3):441~460

[6]R.Sandhu.Role-Based Access Control Models.IEEE Computer,1996,29(2):34~47

[7] C.J. Bussler. Policy Resolution in Workflow Management Systems. Digital Technical Journal,1994.

上一篇:管道井施工注意事项下一篇:信用社客户经理竞聘稿