网络资源数据

2024-09-06

网络资源数据(精选十篇)

网络资源数据 篇1

一、数据仓库的特点

(一) 仓库设计思路

第一步:首先建立森林资源调查数据的应该以二类调查数据为主, 其中所包含的所有资源信息。按照实施分布的细则, 将调查数据分成林种面积和森林林木面积等模块, 建立数据集合。

第二步:就是森林资源具有一定的空降概念, 主要表现是空间分布上的渐变特性。

第三步:一般情况下, 林业资源数据的时间粒度可以设定为1年的时间, 但是全国林业资源数据信息的变化情况时间粒度可以设置为5年。因为森林资源数据仓库的数据集合是按照一定的时间顺序和历史数据、现状数据组合而成的。

第四步:森林资源数据仓库的部分描述性能很难实现量化, 而且数据仓库的标准化程度不是很高。

第五步:森林资源数据仓库建立完毕之后, 其中包含了所有的林业资源数据, 由此就可以建立一个面向主题的分析性数据环境, 随时随地都可以观察到林业资源的环境问题。

(二) 仓库设计框架

数据仓库的建立是面向主题组织的, 也是整体应用的一种高度集中集成, 可以满足每个林业部门的不同分析要求。数据仓库的开发方式和OLTP系统不一样, 因为数据仓库的开发过程是一个数据驱动的过程, 下图就是一个标准的林业数据仓库示意图:

存储层:国家森林总局和各个地市的林业部门可以从这个存储层中掌握森林资源的现状和发展的动态, 对经营活动进行相关的分析和评价, 对资源数据进行获取和清查, 所需要的数据都会被存储在这个分层中。

分析层:主要要是借助于OLAP分析和数据挖掘的技术对森林资源数据进行统计, 信息的获取也可以在这个分层中实现。

表示层:对分析进行可视化的创立和表达, 主要是将可视化的结果数据传达给中高层的管理人员, 供管理人员进行决策和规划的一个科学依据。

二、森林资源数据动态更新

(一) 数据更新流程

第1步:实时更新。实时更新必须和每项生产活动结合在一起, 才可以实现数据更新的时效性。对检查验收之后的业务数据进行相应的更新, 其他的数据都是在年底的时候才进行统一的更新。两项或者两项以上的、连续生产经营活动的变化和更新, 都会被看作是多次变化, 需要分别进行更新。

第2步:自然更新。其中包括了自然增长的更新、自然消耗的更新和自然进界、退界的更新。增长更新就是对于区域性的不同林木类型, 符合二类小班标准的进行树高、年龄等一些自然增长数据的更新。消耗的更新就是符合砍伐条件和自然毁灭条件的都进行更新。进界和退界的更新就是根据树木的树高和直径初始表数据, 符合条件的对其进行进界更新。退界更新就是人工造林没有形成林地的或者是三年之内没有任何的经营活动的林地进行退界更新。

第3步:平差发布。平差就是更新前行政区域的国土总面积为主要依据, 然后更新之后的国土总面积必须和之前的总面积相同。最后数据发布是通过相关的服务接口向林业部门发布信息, 而且归档为年度版本数据, 整个过程由数据中心和资源处共同完成。

(二) 数据更新方法

1. 主键关联法

主键关联法就是要求被更新的数据库和更新数据库具有相同标识的小班唯一键值, 然后才可以进行一对一的关联, 最后才可以进行数据仓库数据的更新, 主要更新的手段是字段更新。

2. 地理位置关联法

这种更新方法需要一定的地理坐标。然后系统通过小班和标识点数据进行一对一的关联, 然后才可以更新。无论是什么方式的关联, 都必须保证的是一对一的关联, 要不然会产生错误的逻辑关系。

三、数据仓库与森林资源数据动态更新的主要问题

(一) 更新系统太落后

因为传统的更新系统过程太过复杂, 在森林资源更新的时候, 小班编号生成本来就可以在两步之内完成, 但是因为系统批量属性的修改限制太大, 所以在修改小班属性的时候太多麻烦。而且更新系统数据太多, 对于计算机配置的要求非常高, 因为较差的兼容性, 使得很多林业系统进行单机操作的时候, 档案管理系统和营造系统等出现排斥性。

(二) 技术人员缺乏

数据更新和管理要求工作人员具备非常高超的操作能力, 而且还需要有很强大的计算机操作能力。但是现在的林业部门很少再引进先进的技术性人才, 使得技术人员非常匮乏。

(三) 人为干扰因素大

受到不合理因素的影响和制约, 个别部门随意调整林业数据的现象时有发生, 严重破坏了林业资源系统数据的真实性。

四、解决方法与途径

(一) 完善更新系统

因为林木在生长的时候, 同龄阶段的树木会有一定的生长率, 不同年龄段的树木生长差异会很大。我们可以根据不同时期的林木群进行顶点的数据观察和检测, 建立一种反映生物变化的生长数据库, 而且在这个基础上建立起各种类型的树木收获周期和类型等, 借助模型的收获和生长实现森林资源的数据更新, 提高了数据更新的科学性和可靠性。

(二) 强化业务培训

森林资源数据管理和更新是一项技术要求非常高的工作, 所以各级的林业部门必须引进一批高专业素质人才的队伍, 进行有针对性的技术培训和计算机操作培训, 为做好林业资源数据的更新提供坚实的可靠性人才。

(三) 强化监督力度

因为森林资源是二类调查数据, 但是因为人力和财力等方面的限制, 二类调查10年才会进行以此, 所以在年度数据更新的时候, 必须强化对基层林业资源的监控力度, 配备专业的技术人才对管辖范围内的森林资源进行全程跟踪监控和及时上报, 这项措施也是提高数据更新质量的核心保障。

五、总结

通过上述材料的分析, 将数据仓库技术引入到森林资源的分析统计当中, 会给相对应的林业管理部门提供宏观的统计数据, 便于日常的森林资源的管理和调查。

由此我们预见, 数据仓库技术在林业资源方面的有效应用, 可以推动我国林业信息化的发展进程。

参考文献

[1]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2010.

[2]吴达胜, 范雪华, 姜真杰, 曾松伟.分布式数据挖掘在森林资源信息管理中的应用[J].福建林学院学报, 2012.

[3]宋连公.数据仓库技术在森林资源信息管理中的应用[J].内蒙古林业调查设计, 2011.

网络用语数据 篇2

这个在过去几年风靡互联网的词汇的字面意思是“雷打的人”,它通常用来表示诧异。2010年3月,在有关两会的报道中还禁止使用“雷人”。“雷人”这样的词通常是在网上的评论中用到,经常是拿中国的东西和美国的作对比时作这样的评价。和美国上世纪企图限制饶舌音乐一样,一些人担心这种文化会传播暴力和反社会行动,认为“雷人”这样的词反映了不稳定的亚文化。

宅男是翻译过来的日文词,它的原意是迷恋一些东西而一直待在家里的人。宅男/女沉迷于游戏、网络或粘在电脑面前进行其他活动。年轻的中国网虫半自豪、半自嘲地称自己宅男/女,可能和美国少年称自己“极客(geek)”的心态差不多。不过,他们对数以百万计的家长来说是很大的问题。中国有世界上最大的网民人数,它在2008年成了世界上第一个认为网络成瘾是一种病的国家,在全国都有网瘾戒断中心。

物联网是一种新概念,它使用云计算,无线电频率识别,以及其他感应技术来创造一个可跟踪的通用网络。这让物流、仓储、库存和其他系统彼此沟通,在没有人类干预的情况下进行工作。比如,你的冰箱可能知道里面有什么,放了多久,并在快到保质期的时候重新订货。物联网是中国“十二五”计划中对经济发展至关重要的七个“战略新兴产业”之一。据报道,物联网得到了7.85亿美元的政府资助。

汉字听写大会:

中央电视台科教频道总监金越介绍“这不是一个秀场,呈现出来的状态可能非常单纯、简朴,但却可以吸引观众在电视机前同步参与,在游戏中学习知识、领略汉字之美。”《中国汉字听写大会》的宣传语是“书写文明传递,民族的未雨绸缪”。

原因: 本电视节目形态设计研发者的关正文说越来越多的人使用键盘书写,用惯了电脑的人手写汉字的能力会下降。

现汉;

商务印书馆总经理于殿利也表示,《现代汉语词典》就等于答案,她的权威性和品质来源于谨慎。据了解,由于被广泛使用于各项现代汉语规范的制订,以及汉语教学,《现代汉语词典》在规范汉语使用中发挥着重要作用,入选词语的选择则更为审慎。

据介绍,这一版新增“产权证、二手房、廉租房、两限房、高铁、摇号、团购、微博、北漂、愤青、雷人、给力、宅男宅女、闪婚、傍大款、冷暴力、潜规则、云计算、山寨、PM2.5、粉丝”等词语,反映了社会生活和语言实际的新变化。但修订主持人江蓝生介绍,综合考虑引导社会的使用和语言自身的规范等因素,并非“见新就收”,一些网友原创的热词如“剩男剩女”则被拒落选。收词原则

注重词语的通用性和生命力--“超爽”待定 “神马”落选 江蓝生介绍,就此次收入的新词、新义、新用法来说,主要依据通用性和生命力原则,通用性是指在社会上使用面广,地位比较稳固,已经为主流媒体所认可;生命力是长时间使用,经久不衰,有的虽然出现时间不长,但合乎语法,表现力强,且能在词义和用法上填补汉语词汇系统中的某种空缺,使表达更加丰富多彩的。

江蓝生表示,收入新词需综合考虑引导社会的使用和语言自身的规范等因素,并非“见新就收”。如收入“宅男”、“宅女”没有收入“剩男”、“剩女”,收入“泡吧”但没有收入“泡妞”,收入“裸婚”没有收入“裸奔”等。像“哈韩、哈日、犀利哥、虎妈、狼爸”等,认为目前以不收为宜。就新用法来说也要视情况而定,如收入“雷”的动词用法“使震惊”,但没有收入“超”、“巨”的副词用法,如“超可爱”、“巨有才”。“比方说现在很流行的、特别是在年轻人当中使用的„巨好看‟、„超爽‟这些词,很生动。但是由于目前适用范围不大,它适用的范围是在一部分人当中,在正式的媒体当中很少出现,特别是像中老年人,根本不用。那么这些词我们认为还是观察一段时间,如果它将来确实被绝大多数的群众都使用了,我们再给它收进来。” 据出版方介绍,作为规范型词典,《现代汉语词典》对收录新词语所取的态度,既是积极的,又是慎重的。所谓积极,是说对于那些反映新的事物、新的思想观念的,有影响、有生命力的新词,要及时收进词典,以满足读者查考的需要。所谓慎重,是说《现代汉语词典》收录新词语不同于某些新词词典,它要坚持一定的原则,概括起来主要是普遍性和稳定性两条。使词典既能满足查考需要,又能起到指导语言正确使用的规范作用。比如一些网络流行的诙谐词语,也并没有因为使用频率高被收录进新版《现代汉语词典》中。江蓝生说:“„神马‟——因为我们有„什么‟这个词,你用„神马‟只是一种临时的用法,俏皮的用法。作为一个规范的疑问词,疑问代词我们有„什么‟,我们干吗用„神马‟来干扰它呢?„神马‟是个名词,所以没必要。”

由于需要坚持谨慎性,《现代汉语词典》的选词经常会滞后一些。据了解,“粉丝”一词,在第五版修订的时候已经出现,经过五六年间全社会的使用和认可,最后还是收录进新版《现代汉语词典》。考虑价值观和社会效果--“剩男”“剩女”无缘 “宅男”“宅女”收录

江蓝生介绍,除了通用性、生命力两个重要指标之外,价值观和社会效果也是《现代汉语词典》这样的语言规范类工具书必须考量的标准之一。

他说:“我们不收„剩男‟、„剩女‟这些词。对于因种种原因不能够及时结婚的人,他们有各种各样的原因,我们把他们说成„剩男‟、„剩女‟,从某种角度来说是不够尊重人的,所以我们不收。” 再如,“同志(同性恋者),至于底下用,你们爱怎么用就怎么用,但是作为一部规范性的词典,我们不收它,是因为我们不想提倡这些东西。”

根据《中华人民共和国国家通用语言文字法》,汉语文出版物应当符合国家通用语言文字的规范和标准

复旦大学教授陆谷孙曾说:“在我看来,交流是语言的至上目的,不是为了保存,如果理解了这一点,这些疑问都迎刃而解。”

问题:

在资讯交流更快、更广的今天,每个社会都面对越来越多的外来语。美国韦氏大辞典第3版就曾因收录过多的俚语、俗语等,面世时引发了巨大争论。但后来证明,该版本词典在收

词方面还是具有远见的,因为后来的很多词语被普遍接受和使用。您觉得词典编撰业应该对现代汉语的客观现实进行描述,就像记录“文学家在海滩上行走的脚印”一样记录社会;还是应该坚持维护汉语言的规范性与纯洁性呢?

这与美国韦氏大辞典第3版收录过多的俚语、俗语性质不同,所以不能以此为例说明《现代汉语词典》收入一部分西文字母开头的词语是否合理。词典的编撰在维护汉语言的规范性与纯洁性和对现代汉语进行客观现实描述两个方面,负有同样的责任。这两者不是矛盾的。因为语言是活的,不断发展变化的,而它的发展变化也包括吸收外来的词语。词典不能因为要维护所谓规范性和纯洁性,拒绝收入外来词。纯洁而规范和汉语绝不是一成不变的东西,词典要反映语言的发展变化。我们现在使用的规范的汉语词有很多是外来词,这是人所共知的。

网络词语造词的随意性和不规范性,使其要成为基本词汇,必须经过现实生活的检验,能为大众接受和使用。

针对《现汉》里收录西文字母 反对者认为,作为汉语专用工具书的《现代汉语词典》,具有一定的针对性和局限性,在其中收录西文字母开头的词语不妥。有一百多名学者联合签名的举报信表示反对,反对的主要理由是;在《现代汉语词典》里收录这些西文字母开头的词语,违反了《中华人民共和国国家通用语言文字法》、国务院《出版管理条例》(国务院第594令)等法规,有的人认为收录这些词语是中国文化向西方文化投降。赞成者把反对者看成思想封闭保守狭隘,这样不利于中国文化与世界文化的交流发展,反对者则认为赞成者这样做是没有考虑中国文化的实际和特性,是给中国文化抹黑,《现代汉语词典》是专利性针对性强的查找汉语言文字的工具书,编撰者无视了这部《词典》的定语是“汉语”,是将这部《词典》定性为“汉语”的“词典”。

如果说这是顺应世界文化发展的要求,有利于与他国的文化交流和认识,是文化对外开放的一个先例而予以肯定的话,那么它的用途目的还远远没有达到,它应该把世界各国的文字都收录在其中,这样做方能更好地与世界各国交流,也能更好的显示我们开放的彻底性和能包容外来文化的博大胸襟。显然这样的观点是不切实际十分错误的。

反对者考虑的是民族文化的实际,目的是维护作为汉民族文化的语言文字专著,其收录的文字词语理应是汉字和汉字组成的词汇的原则,这样的认识观点无可厚非,他们的认识观点与思想落后保守无关。如何进行文化开放交流,是一个值得探讨的问题。我认为维护民族文化的根基和特性是根本。文化的开放交流应该有一定的尺度,不应该为了吸取外来文化而忘了根本。如果说在中国人的血管里,要渗入外国人的血液才是真正的交流开放岂不荒唐。

反驳:

词典附上常用的字母词,是为读者提供方便。

《咬文嚼字》杂志,杂志副主编黄安靖表示,“违犯法规”的说法有点过头,现代汉语中,一些借用外国语的字母词历来就有,如X光,不只是现在,以前一直就有。实际上并没有法律规定不允许使用字母词,不允许使用字母词的规定也是不现实的。

如今,这些网络词语对于年龄较小的小朋友来说,也是耳熟能详,不少小朋友告诉记者自己正是从网络上了解到这些词语。

记者:上网都干些什么?

胡祖璇:上网玩玩游戏,或者查资料之类的记者:上网的时候你有没有看到网络流行语,比如说雷人,搞笑之类的词

胡:有

记者:你平时说不说呢?

胡:只是网络上说

记者:你在网上干些什么的时候会说呢?

胡:我在网上和别人聊天的时候才说这些话

中广网上海2月23日消息(记者 吴善阳)《上海市实施〈国家通用语言文字法〉办法》日前出台,并将于3月1日施行。这部地方性语言文字法规对〈国家通用语言文字法〉进行细化和补充,具有很强的操作性、针对性。办法还对网络语汇、方言、繁异体字和外语的使用进行了规范。在网络语汇方面,符合现代汉语词汇、语法规范的,或者符合汉语造词规律的,特别是信息技术方面的专业用语,允许使用,明确规定国家机关公文、教科书不得使用不符合现代汉语词汇和语法规范的网络用语。繁异体字的招牌、外语的标志牌都必须有规范汉字的标注。

反驳:根据《咬文嚼字》编辑部的常年研究发现,近年来中国的汉语言文字系统进入了一个“全民造句”、空前活跃的阶段,不仅网络用语成为时尚,还有方言常用词、新的科技词汇等,也都是对我国语言文字系统的一个重要补充,促进了汉语体系的新陈代谢。

中国市场网络数据 篇3

2011年,中国广告花费总额近2090亿元,其中在线广告支出仅为300亿元—预计2015年这一数字将超过1000亿元。

聊天是最主要的在线活动,2011年有超过半数的中国网民曾在线聊天, 在15-24岁网民中,该比例高达80.8%。看新闻是第二大在线活动,45岁以上网民尤为热衷。排在其后的依次是信息搜索、游戏、下载和收发邮件。2011年约三分之一的中国网民在线收发邮件,而25-34岁网民中这一比例接近50%。

网络连接

近年来中国互联网平均连接速度逐渐提高。虽然在过去的很多年里因缓慢的网速而饱受诟病,但到2011年年末,中国的平均网速已达到1462kbps,在4年内提高了一倍多,特别是2011年有了大幅提升,这在一定程度上归功于对最先进电缆基础设施的投资。截至2011年年末,互联网的渗透率已达到57.4%,预计到2015年将快速上升至64.9%,而且仍有进一步发展的广阔空间。2011年年底,大约有四分之一的中国居民拥有智能手机,预计这一比例在2015年年底将超过五分之四。

热门网站

中国三大网络巨头为百度、阿里巴巴和腾讯,分别控制着搜索、在线购物和即时通讯领域。一些本土社交网站颇受中国网民欢迎,包括更受年轻网民喜欢的腾讯Qzone,以及以复制Facebook模式起家的人人网。

新浪微博和腾讯微博同为微博平台,而社交网络朋友网则是从腾讯QQ校友发展而来。QQ校友于2010年7月悄然退出市场,接着变身成全新的网站面世。自此之后,朋友网迅速发展。该网站将目标锁定在更为高端的用户并坚持使用真实姓名和个人资料,相比一些被视为其竞争对手的社交平台(如人人网),朋友网在广告方面更加谨慎,避免过量。

广告

横幅广告的平均千人成本(CPM)约为10元,当然广告的位置、大小和创意均会对千人成本造成很大影响。而对于视频广告,估计平均千人成本大约在60-100元之间。这一数字在明年可能会小幅增长,但由于市场目前处于更加稳定的状态,增速肯定不会超过去年。有些行业更依赖在线广告:首先是网络服务业,去年该行业的广告支出总额中约有15%用于在线广告,其次为运输业(9%),而食品饮料和烟草行业则几乎不采用这种广告形式。

移动广告也变得越来越重要,目前只占广告市场的一小部分,但正在不断增长中。目前,移动广告的平均千人成本约为标准在线广告的三分之一。

购物

2011年,大约有37.8%的中国网民曾在网上购物,而2007年这一数字只有22.1%。随着越来越多的网民习惯于网上购物,这一上升趋势将会持续,但增速将小幅放缓。

据巴克莱资本的统计,2011年中国网络零售销售额为1210亿美元,比2010年增长了66%。麦肯锡预测2015年,中国电子商务市场将超过美国,达到4200亿美元的规模。中国中产阶级群体持续快速壮大是推动这一趋势的主要原因。数字营销公司Acquity Group预测未来20年中国的富裕中产阶级人数将在当前的基础上翻两番。

运费在中国相对较便宜,中国估计有一半的国内包裹由阿里巴巴产生,而这仅仅是17%的中国人口所产生的。中国网民在网购时往往只喜欢低价商品。信用卡欺诈和假货已拖累了网购市场。尽管已采取了一些措施(比如引入安全的在线付款服务)来解决网民的担忧,但信用问题仍然存在。此外,网民也常抱怨向在线商户申请办理次货退换存在困难的问题,这显然也会对网购市场造成更多的负面影响。

事实上,到目前为止国内最受欢迎的购物网站仍然是阿里巴巴旗下的淘宝网。该交易平台采用eBay模式,但与eBay不同的是,淘宝上出售的大部分商品是新品,并且不收取商品陈列费或交易费。截至2009年,所有在线交易中有高达85%为C2C而不是B2C交易。

油田企业数据中心数据资源管理 篇4

关键词:数据中心,数据资源,数据资源编目,业务活动,业务对象,对象特性

1、需求分析

企业数据中心建设是对企业核心数据资源的集中统一管理和集成化应用的实现, 是实现企业数据资源共享和业务协同应用的关键一环。油田企业数据中心建设具有以下特殊性:

1.1 专业门类众多, 涉及的数据类型复杂

油田企业勘探开发业务有物化探、分析化验、井筒工程、综合研究、开发生产、地面工程六大业务域, 三十多项业务, 涉及的数据类型有结构化数据、文档数据、图形数据、体数据, 其中体数据又有地震体数据、测录井曲线数据、地质模型数据、网格数据等多种, 并且每种体数据又有多种格式, 数据类型的复杂性使数据资源管理难度很大。

1.2 数据量巨大

油田企业的生产数据要每天监测, 有的需要几小时就监测一次, 对于自动化采集的监测时间周期更短, 而监测点又很多, 造成了数据量增长迅速。比如采油井、注水井日生产数据, 对于胜利油田这种大油田来说, 有几万口生产井, 每天都产生数据, 几十年的开发期, 数据量就能达到商业条。目前胜利油田平均每天的增量数据就有八九万条, 年增长量就几千万条, 随着信息化的不断深入, 数据量增长速度会不断加快。

还有一种数据虽然记录数不多, 但单体数据量很大, 比如精细三维地震数据体等。巨大的数据量对数据中心的数据资源管理也是一个巨大的挑战。

1.3 新技术的应用不断出现引起新的数据类型

石油天然气勘探开发是一个各种技术综合应用的专业, 随时会出现新的技术和方法, 就会产生新的数据类型, 数据中心的建设必须要能够适应这种变化。

1.4 数据管理情况不清

由于油田企业以前的数据库建设是按照专业进行的, 同一业务对象不同时期的数据资料被分在了不同的数据库中, 一方面数据资料的整体状况不清, 另一方面, 同一数据多头管理, 数据质量状况不清。以上几个特点决定了油田企业数据中心建设必须要制定一套完整的数据资源组织和分类体系和元数据管理体系。

数据资源管理的目标就是要完成业务对象基于业务过程产生的成果资料的组织和编目, 实现勘探开发数据资源面向业务对象基于业务过程的组织和管理;完成对于具体的业务对象在具体的业务过程中产生数据资源的数量、质量状况的整体情况的描述。

2、油田企业数据资源的分类与组织方法

2.1 油田企业数据资源的分类

油田企业数据资源的分类可以借鉴图书馆对图书的分类。在图书馆中, 根据图书的专业门类, 从大类上分成了自然科学和社会科学, 自然科学按照专业又可分为数学、物理、化学等, 这样逐级细分下去, 就能建立一套完整的分类体系, 新出的图书可以根据此分类体系放到其应该归类的门类中, 从而实现了有效的管理, 方便了查阅。

油田企业的数据资源都是在不同的业务过程中产生的, 如果我们找到一种相对科学的对业务的划分方法, 再把数据资源归类到这些业务门类中也就找到了数据资源的分类方法。

在油田企业实际业务分析过程中, 我们划分了物化探、分析化验、井筒工程、综合研究、开发生产、地面工程六大业务域, 又在各业务域中逐级划分出了30多个一级业务, 70多个二级业务, 140多个三级业务, 基本建立了比较科学合理的业务划分体系。

在实际的数据中心建设中, 数据资源的来源除了业务产生的数据外, 还有一些公用信息也是非常重要的, 这些信息不是从勘探开发业务本身产生的, 而是来源于与其相关的其他专业和部门, 这一部分数据资源与勘探开发业务中产生的数据资源的集合就是数据中心需要管理与应用的全部数据资源。

综上所述, 油田企业数据资源的整体分类应该包含:公共信息、物化探、分析化验、井筒工程、综合研究、开发生产、地面工程七大部分, 细的划分按照业务的层级分类。

2.2 油田企业数据资源的组织方法

为了实现对数据资源进行有效地组织, 胜利油田数据中心建设中对数据资源编目建立的方法如下:

(1) 以业务对象及分类关系组成业务对象分类树, 形成对业务对象的组织和管理;

(2) 以业务过程 (业务模型六大业务域及业务层级划分) 组成业务树, 业务活动是业务树的叶子节点, 业务活动唯一的作用对象使业务活动与业务对象建立了关系;

(3) 以业务单元为基础与业务活动建立关系, 业务活动产生的数据资料以业务单元的方式组织, 产生的数据资料分为结构化数据 (数据表) 、文档文档 (包括附件) 、图形成果 (包括附件) 以及体数据。

上述三个关系建立数据资源编目体系。表1是数据资料编目的例子, 加上业务对象的分类树和业务活动树就形成了完整的油田企业数据资源编目。

通过数据资源的分类方法和组织方法, 我们找到了对数据资源编目的规则, 这些规则能够满足我们对已有和将有数据资料的组织和管理需求。

3、数据资源的元数据管理

对数据资源情况的管理需要有一套完善的元数据体系来实现。数据资源的元数据管理, 规定了格式化数据、体数据、文档数据和图形数据四种类型的石油天然气勘探开发数据的元数据, 主要包括对数据的产生场景、录入场景、数据质量、数据安全、参考系及数据特性的描述。石油天然气勘探开发数据管理元数据由四个元数据实体组成:

(1) 标识实体:包括业务活动的标识和该活动产生的数据集的名称和标识等元数据元素: (2) 定义实体:包括业务活动产生的数据集的概要说明; (3) 管理实体:包括业务活动中数据的责任人 (单位) 以及数据质量、数据安全级别等元数据元素; (4) 表示实体:包括数据产生场景 (操作者、时间、地点等) 以及参考系等元数据元素。

按照石油天然气勘探开发数据的表现形式可分为结构化数据、体数据、文档数据和图形数据等四类, 这四类数据的元数据实体集合构成以下四种元数据子集:

(1) 结构化数据元数据子集:描述石油天然气勘探开发业务活动中可以表格化的数据的子集; (2) 体数据元数据子集:描述石油天然气勘探开发业务活动中具有特定格式的体数据的子集; (3) 文档数据元数据子集:描述石油天然气勘探开发业务活动中产生的文档数据的子集; (4) 图形数据元数据子集:描述石油天然气勘探开发业务活动中产生的图形数据的子集。

4、数据中心数据资源的综合查询实现

数据资源编目建立了业务对象、业务活动与数据资料的关系, 为数据中心数据资源的综合查询奠定了模型基础。

在胜利油田数据中心建设实践中, 我们实现了面向业务对象的查询、面向业务活动的查询、面向资料的查询和模糊搜索查询四种方式, 为业务人员提供了丰富的查询手段。数据资源元数据的登记与管理为数据分布情况、质量情况等提供了分析资料, 使我们能够清楚地了解数据资源的整体状况, 方便了数据资源的业务应用。下图是对DXFS10井的数据资源状况的展示, 通过对数据资源编目及元数据的集中展示, 能够清楚地了解该井全生命周期的数据资源状况。

5、结语

基于网络资源管理数据库设计研究 篇5

关键词:网络;数据库;硬件;软件

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-02

一、引言

计算机技术的发展应用,尤其网络技术的发展,对人们生产,生活以及办公、工厂、企业等的经营与管理产生了深远的影响。计算机网络往往有若干个大大小小资源不同,功能各异的子网组成的多种平台并提供各种服务的系统。因此,随着人们对网络的认识不断地提高,网络管理成为网络发展中的关键技术,并成为现代信息网络中的最重要的问题之一。它的重要性已经在各方面得到了体现,为越来越多的人所认识,网络资源管理成为网络发展中需要解决的重要问题。本文就是从网络资源管理的角度出发,对网络的资源管理中数据库进行开发和研究。网络资源管理就是通过建立网络资源数据库,监视和控制一个复杂的计算机网络以确保其尽可能长时间地正常运行从而提高网络资源的利用效率。本文主要从硬件资源管理和软件资源管理两个方面对其进行分析和设计。

二、网络资源管理硬件设计

现代计算机网络资源管理主要包含四部分组成:被管代理、管理工作站、网络管理协议和管理信息库。这四者之间存在相互依存且又密不可分的关系。管理工作站负责接收用户的命令,并通过网络管理协议向各被管代理转发,同时接收来自被管代理的通告或中断信息,并向用户显示或报告;被管代理负责接受来自管理进程的命令并发起响应事件;网络管理协议用于封装和交换管理工作站和被管代理之间的命令和响应信息。管理信息库是网络管理系统的一个非常重要的部分。管理信息库由一个系统内的许多管理对象及其属性组成,Web网络管理系统上就是一个数据库。这个数据库提供有关被管网络设备的信息,而这些信息由网络管理器和各被管代理共享。网络管理系统通常可以有图1-1所示。

图1-1 网络管理系统

(一)网络管理一般模型结构

网络管理通常是指为满足具有特定需求地即通过客户化的、具体的网络管理系统。因而,一个网络管理体系结构,自然也存在不同的开发方案。任何一个适于在当今异构的互连网络中进行综合的网络管理的体系结构都应该包含如下几个方面的子模型:信息模型,组织模型,通信模型,功能模型。图1-2给出了网络管理体系。

图1-2 网络管理体系

(二)网络管理实现方案

本文主要研究了基于WEB技术的网络管理设计方案,这种网络管理模式就是将互联网技术与网络管理技术相融合,利用浏览器就可以网络任何节点上监测,配置,控制,访问网络其它资源。从而减轻了网络管理复杂性,降低了网管费用.增加了灵活性和便捷性,同时也实现了地理上和系统间的可移动性。

WEB网络管理特点

(1)可移动性:就是网络管理员要察看网络设备的信息时,可以不通过网络中心,而是利用互联网在浏览器中通过任何一个台工作站上进行操作。而且系统的升级、维护只需要在WebServer上进行,而客户端不需要进行任何修改。这对于网络管理者来说,具有很大的便捷性且不受地理条件的限制。

(2)友好程序界面管理:简单而通用的管理界面,使管理员不必同过复杂的学习就能掌握运用从而完成管理任务。

(3)独立性:独立性是指系统在各种环境(操作系统、体系结构和网络协议)下使用时,无须进行系统移植。

(4)互操作性:管理员在通过浏览器对不同的管理系统之间切换时,能够顺利、通畅的操作。

(三)设计方式

本文采用嵌入式的WEB设计方法,就是把WEB管理嵌入到每个需要管理的设备之中,并为每个设备都分配有不同的WEB地址。优点就是网络管理系统完全采用Web技术,各个设备采用图形化的管理方式,同时提供了简单的管理接口。网络的拓扑算法采用高效的Web搜索、查询点索引技术,网络管理层次和域的组织采用灵活的虚拟形式,不再受限于地理位置等因素。可以用下图表示:

图1-3 嵌入式Web设计简图

三、网络资源管理软件设计

网络资源管理的软件和硬件设计都要根据不同的部门要求并充分分析系统需求的基础上来对系统进行确切的定位建成集中统一的、开放的平台,对资源进行统一、优化管理。首先要对所有的资源进行分类,比如什么是网络资源,什么是业务资源。之后,根据资源之间的联系,确定资源类之间的继承关系建立不同的层次的子网。

(一)系统软件设计

在进行系统软件设计时要考虑以下几个方面:

(1)整个系统功能结构的划分:即基础数据、专业逻辑资源、运营决策分析等网络功能管理。

(2)基础资源管理:主要包括机房、管线设备以及备件管理。

(3)专业逻辑资源管理:主要包括传输,交换口令、数据分配,设备接入,网络拓扑,网络资源分析等以及建立在基础资源之上的逻辑资源,两者之间要实现松耦合。

(4)系统管理:主要是指系统用户管理,网络运行安全管理,数据完整性和及时更新,公告板,系统参数配置等功能的管理。

(二)网络资源管理数据库设计原则

网络技术发展日新月异,技术更新频繁。网络体系结构、功能模块要满足以后业务发展的需要,所以在设计网络管理数据库时要考虑以下几个原则,即开放原则,可扩展性原则,界面友好和安全可靠原则。

(三)数据库设计

数据库设计是网络资源管理系统的核心和基础。数据库设计围绕基本数据建立结构稳定的数据库,不但要解决网络资源统计指标的经常变化。同时要将资源变化指标以代码形式存放在各个资源指标库中,作为数据来处理,并将生成报表的数据项目、审核关系、汇总方式、打印格式等参数放人模块数据库,为资源管理和分析提供可靠地依据。

四、结论

网络资源数据库设计是一个庞大、复杂的系统工程。不仅要求设计人员具有深厚的网络技术知识,同时还要求具有计算机技术和语言开发能力。本文没有对整个的网络资源管理数据库设计进行详细而系统的说明,只是概要的提出了在进行网络资源数据库设计时要注意的问题。通过本文的分析,提出了再设计网络资源数据库时,不仅要考率实际网络管理需求,而且要注意数据库管理方便性和实效性。提高资源管理效率,减少资源的浪费。

参考文献:

[1]姜旭平.信息系统开发方法—方法、策略、技术、工具与发展[M].清华大学出版社,1997

[2]张震,张曾科.一种新的WEB数据库系统结构[J].小型微型计算机系统,2001,5

[3]武彬.网络信息资源管理与数据库建设[J].河南科技,2008,3

网络资源数据 篇6

随着社会的进步和发展, 我国广播电视行业得到了快速的发展, 尤其在信息时代, 网络起到了前所未有的重要作用, 网络建设日趋庞大复杂, 对网络资源的管理逐步得到网络公司领导层的重视。为使网络能够有效发挥作用, 对资源管理的方式也发生了革命性的改变, 最初基本都是把资源信息记录在纸上, 大量信息处理靠人工完成, 随着计算机技术的发展以及各行业外部环境的改变, 对资源管理由纯人工管理转为人工管理与传统的电子化管理相结合的方式, 也就是基本依靠计算机及相关软件对资源信息作保存。目前全国一些省市的有线电视网络公司已开始使用基于GIS技术的网络资源管理系统, 加强有线电视网的管理。通过调查, 无论是已经使用还是准备使用网络资源管理系统的网络公司, 都意识到网络资源管理在整个网络管理过程中的重要性, 但在使用和建设过程中, 对于具体系统的建设和使用还存在很多疑惑, 数据的安全管理就是其中一个大家重视程度很高的问题。

1资源分类及特点

在有线电视网络资源管理系统中, 来自于地理信息、设备设施、线路等信息是系统建设和管理的基础。信息的处理可以说是设计有线电视网络资源管理系统的重要工作, 需要一个系统的分层和分类活动。

1.1系统数据分类

有线电视网络资源管理系统中的数据按照其属性关系分为基础地图数据和业务数据两大类。

1.1.1基础地图数据

基础地图数据主要指基础地理数据, 如行政区域、河道、公路、山川等。数据类型根据测绘方式一般包括栅格地图、矢量地图和影像地图等各种类型的地理数据, 用来为有线电视网络资源管理系统提供地理基础, 并在此基础上从事设计、资源布放、维护巡检的服务。根据有线电视的工程及管理特点, 一般需要使用民政设施、楼栋、公路、行政区划、山地河流等图层。

1.1.2业务数据

业务数据是指有线网络运营商在使用资源时产生的数据, 如网络项目管理数据、新设计的线路设施数据和已经在运营状态中的网络资源, 都由图形数据和属性数据构成的。

1.工作区边界数据

有线网络运营商为了缩短服务半径, 会成立省、市、区多级层级, 同一层级有若干片区, 每个片区具有行政上的权责分工, 因此在地图上也会划分出不同的工作区边界, 产生工作区边界数据。

2.网络规划数据

网络规划数据是指新项目在规划阶段所产生的数据, 包括规划管线数据和规划设备数据。

3.网络设计数据

网络设计数据是指网络进入设计阶段后所产生的数据, 包括设计管线数据、设计器件、设计设备数据、设计楼栋结构数据。

4.网络资源数据

网络资源数据是指已经进入运营阶段的网络资源状态的数据, 包括用户社区数据、分配网数据、干线数据、设备设施数据、机房数据、管道数据。

专业数据是以地理信息系统数据方式存储和进行显示的, 地理信息系统数据类型主要有点数据、线数据和面数据三种:

1) 点数据, 主要是独立设备或地点, 前端、光交接箱、接头盒、放大器等;

2) 线数据, 主要是管线资源, 如光缆、电缆、管道等;

3) 面数据, 主要是同级各片区的范围, 如工作区边界等。

1.2数据分层

有线电视网络资源管理系统中可将数据分为四层, 从下到上依次为:空间资源、支撑资源、物理资源和逻辑资源。

空间资源包括公共资源和基础地理信息资源两部分。在有线电视领域, 大量的数据信息包含地理成分, 特别是网络信息, 其分布与走向均与地理位置有关, 建设有线电视网络资源管理系统需要充分应用地理信息技术, 进行信息的可视化管理, 因此基础地理资源数据是系统最基本的数据层。

管道、人手井、电杆等虽然不是有线电视网络的专属设施设备, 但它承载了有线电视网络资源, 我们称之为支撑资源。支撑资源不属于有线电视网络资源, 却是进行有线电视网络资源管理的必要支撑, 与有线电视网络的建设、运行和维护密切相关。

对于有线电视网络本身, 我们将其数据分为两层, 即物理资源层与逻辑资源层。物理资源和逻辑资源是有线电视网络资源管理系统在进行日常管理和维护时最基础的网络资源, 是进行系统工程设计、维护、查询和分析的基础数据。

对基础地图数据和专业数据进行分层, 有利于系统建设时功能模块设计和开发, 使系统数据管理更加方便有效。

2数据部署

根据我国有线电视网络的管理模式, 较大的网络公司涉及省、市、区县三级网络公司, 地域分布广, 使用部门多, 所以需要对资源数据和地图数据进行部署。

根据运营单位规模、系统架构不同, 数据部署方式也不同。对于多数区县等小规模有线电视网络公司, 在建设有线电视网络资源管理系统时, 一般只需要本公司进行系统的使用和数据存储, 由于没有几个分公司或子公司在多地同时进行使用的需求, 所以系统不需要进行分布式部署和数据同步, 对数据进行备份即可。但是对于一些规模较大的运营单位, 尤其随着我国三网融合的推进, 各省、地市网络公司纷纷进行整合, 网络资源管理系统的建设和部署模式越来越多的从单机系统发展为分布式系统或者集中式系统, 使用模式从以前的单一部门使用发展为分区分级、分部门使用。本文就以分布式部署的网络资源管理系统的数据安全管理为研究对象。

分布式部署是指系统数据在核心服务器和所有的节点服务器都进行部署, 客户端只保留用户执行相关任务的数据。一般情况下, 系统采用分布式的数据环境部署数据, 核心服务器和节点服务器部署的数据可以有所差别, 核心服务器保存完整的网络资源数据, 各节点服务器保存的网络资源数据为核心服务器的一个子集, 保存各节点服务器所管理的地理区域内数据, 例如, 核心服务器存贮了整个运营单位的所有数据, 而各节点服务器存贮了不同分公司或者子公司的数据。

由于核心服务器和各节点服务器保存的数据不同, 是全集和子集的关系。核心服务器保存完整的网络资源数据, 各节点服务器保存并维护本节点服务器所管理范围内的网络资源数据。当核心服务器网络资源数据发生改变时, 为了保持核心服务器和各节点服务器中数据的一致性, 需要做相应的数据同步操作, 同步操作由运行在核心服务器中的数据应用服务来完成, 核心服务器将向相应的更新区域所在节点服务器发送更新的数据, 使节点服务器上的数据和核心服务器上的数据同步;当节点服务器网络资源数据发生改变时, 也需要将数据与核心服务器进行同步。

3数据安全策略

3.1数据定期备份

为了保证数据的安全性问题, 需要对数据进行备份, 以防止运行数据发生丢失或灾难性事件时数据的破坏。

数据的备份主要包括数据库数据的备份与文件数据的备份。

3.1.1区县分公司数据备份

区县分公司的数据, 数据库数据都有上传到地市分公司的服务器中, 因此该部分数据就不需要再进行备份, 当然如果区县与地市分公司的网络状态不好的情况下, 也可考虑在区县分公司进行备份, 以保证系统还原的效率。

文件数据主要存放在区县分公司的本地数据库服务器中, 因此需要在本地对该部分数据进行备份。

3.1.2地市分公司数据备份

地市分公司的数据, 包含有本地市分公司数据之外还有所辖区县分公司的数据, 数据量较大, 节点也较为重要, 因此需要在地市分公司进行数据库备份与文件数据备份。

3.1.3省级数据备份

省级存储了全部的网络资源数据、关联业务数据, 数据量较大, 而各地分公司数据已各自有进行备份, 因此省级主要备份关联业务数据, 网络资源数据不需要频繁备份, 可与地市级公司的备份策略互相补充。

3.1.4备份策略

为了确保数据的安全, 数据库需要分自动和手动两种方式对数据进行备份保存;备份的数据保存在服务器或磁盘阵列数据库中, 要求对所有的数据进行分时期分阶段保存, 防止因不可意料的情况发生对数据产生的破坏, 造成不必要的损失。

区县分公司的备份策略:通过FTP文件服务每天对文件数据进行备份, 备份存储在不同硬盘上, 条件允许的情况下, 可备份在不同机子上, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份。

地市分公司的备份策略:地市分公司本地文件数据每天备份一次, 数据库增量数据每天备份一次, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 文件数据与增量数据库数据只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份, 完整数据库数据每年也仅保留最后一次的备份。

省级的备份策略:省级每天备份一次增量数据, 因为每个地市分公司每天都有进行备份, 因此完整全部数据库备份可考虑一个月备份一次, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 增量数据库数据只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份, 完整数据库数据每年也仅保留最后一次的备份。

人工备份:考虑到数据的灾备及数据存储容量的问题, 需考虑购买外接存储设备, 每个月维护人员人工拷贝一份备份数据, 放到其它机房里进行存储, 以起到灾备作用。

3.2权限管理控制

作为三级网络资源管理, 所要管理的数据量巨大, 对用户权限的控制是非常有必要的, 省、市、县三级用户的权限设置建议如下。

3.2.1通过区域权限控制对各区域范围内数据的读写

区域范围内数据的读写可分为可读、可写、不可读写, 可读是指可看到区域内的数据, 可写是指可对区域内的数据进行修改, 不可读写是指不能看到该区域内的任何数据。

省级领导及相关技术人员可对全部数据都能进行查看, 一般不需要对数据进行直接修改, 因此可对全省区域权限设置都为可读不可写 (当然个别需要也可设置为可读可写) 。如果某些人员不希望其看到某些市县网络数据, 可对该市县的区域权限设置为不可读不可写。

地市级公司相关人员, 一般只关心本地市分公司的网络数据, 因此一般只对本地市区域权限范围设置为可读可写或可读不可写 (根据实际需要进行设置) , 其它地市区域权限设置为不可读不可写。当然如果地市级分公司需要对所辖区县网络进行查看, 也可对该所辖区县的区域权限设置为可读可写或可读不可写。

区县级分公司相关人员, 一般只对本分公司的数据有权限读或写, 对其它区县分公司都可设置为不可读不可写。

区域权限设置界面可参考图1 (该市级用户可对太原市内的数据进行修改、查看, 但对其它地市范围内的数据不能修改也不能查看) 。

3.2.2通过对数据使用权限管理, 控制数据的读取

区域权限管理主要是控制对某个区域内所有数据的读写, 而数据使用权限针对的是对区域范围内某类设备数据的读取, 包括图层数据、设备属性数据等, 可对一些敏感数据进行限制, 不同级别的人员允许读取到的数据不同, 达到数据保密的目的。一般针对的是同个分公司不同职位权限的人员。

如图2所示的人员, 只能查看到光缆的验收长度、光缆芯数与光缆编号, 其它光缆的信息就不能查看到, 比如生产厂家、光缆型号就查不到。

数据使用权限也可应用于对外单位的数据保密性, 允许其参与某些操作, 但对某些敏感参数进行保密, 不让其看到。

3.2.3通过功能权限管理控制用户的功能操作

功能权限主要指系统可使用的功能, 大到子系统能否登陆, 小到某个具体菜单项、工具条, 用户在登入时, 依据管理员赋予的功能权限定制界面, 从而达到控制用户操作权限的目的。

功能权限主要针对的是同一分公司不同部门不同岗位的人员的权限管理, 比如光缆设计人员只能对光缆设计竣工子系统进行登陆并操作, 而不能登陆分配网设计竣工等其它子系统, 防止不同职位的人员超出其职位权限进行操作, 如图3所设置。甚至可以控制某个人员能操作的更细致的内容, 如不允许某个光缆设计人员对光交接箱进行放置与设计, 见图4。

总结以上, 区域权限主要控制不同级别公司人员的管理区域范围, 数据权限与功能权限更多主要控制同一分公司内部不同部门不同岗位人员的权限。

3.3服务器安全性防护措施

为了保证服务器不被病毒和其他非法手段入侵, 在服务器方面可以用以下的防护措施:

1.在进行程序部署前, 保证服务器的操作系统安装了全部的安全升级补丁, 关闭了所有不需要的系统服务, 只对外开放必须的端口。

2.设立检测机制, 根据规则查看系统安全通告, 根据国家网络安全中心完善安全补丁。

3.设立检查机制, 研究系统日志, 分析可以操作, 定期汇报。

4.服务器程序在服务器中文件系统中的目录结构位置应该尽量清晰。命名目录时要有所指便于运维人员理解和操作。

5.在操作系统安装必要的杀毒软件, 定时对操作系统进行入侵检测、漏洞扫描和病毒防治, 保证操作系统正常运行。

3.4网络安全防护措施

为防止网络的内部关键资源 (服务器、数据库等) 遭受攻击, 提高整个网络资源管理系统的网络安全性, 在核心网和资源管理系统专网之间采用防火墙, 对病毒、垃圾邮件、非授权访问等进行实时监控, 为用户提供全面的保护。

3.5物理安全措施

对应物理性安全而言, 主要应该从以下两个方面进行防范:

1.服务器应部署于专业的数据机房, 做好机房管理工作。

2.对于服务器支持热插拔的各种接口, 需要在部署前在系统BIOS中关闭, 服务器在运行过程中, 应该做好各种防护措施。

4结束语

网络资源的分级管理是中国有线电视网络资源整合后即将面临的管理和技术问题, 而数据的安全将成为广播电视安全播出的任务之一, 数据的安全更应该引起有线电视网络运营商的重视。综合上述五个大方面的考虑, 可以有效的防止病毒的入侵和非法的入侵, 可以有效的保证数据的安全, 可以保证有线网络资源管理系统正常的运行。

参考文献

[1]王新喆, 石慧.有线网络资源管理系统现状分析及架构设计[J].中国有线电视.2013 (11) .

[2]任宁宁.有线电视网络资源管理系统建设规划[J].电视技术.2013, 37 (4) .

[3]杨秋菊, 何慧燕.探讨有线电视网络资源数据管理[J].数字通信世界.2013 (03) .

[4]潘茜.基于IPSec VPN的安全策略研究[M].西安:西安电子科技大学, 2013.

网络资源数据 篇7

随着互联网技术的快速发展与广泛应用, 全球互联网的各类专业网站上每时每刻都在上载更新着成千上万的各类新闻信息、行业观点、研究报告等庞大资讯。依靠从互联网上搜集、整理并编排相关行业信息, 就能构建相对较完整的专业动态信息网站, 进而提供相应的行业动态信息服务。但目前大部分行业动态信息网站中的互联网信息收集与整理都还依靠人工手动完成。这种方式虽然能够收集到具有较高质量的信息, 但需要花费大量时间频繁浏览相应资讯网站, 人工工作量很大。因而研究网络数据资源自动获取技术并投入行业系统应用, 对于高质量完成行业信息系统数据资源建设及今后资源的持续更新具有非常重要的意义。基于Eclipse可扩展开发平台[1,2], 采用JAVA及XML脚本语言, 研发了包括网络爬虫、数据抽取、文本智能分类技术在内的, 完整的网络数据资源自动获取技术, 并成功应用于全球油气行业动态信息系统Petro DIS。

1 关键技术

1.1 网络爬虫技术

网络爬虫 (Web Crawler) , 是一种按照一定的规则, 自动地抓取互联网上信息的程序或者脚本, 其定义有广义和狭义之分。狭义上指遵循标准的HTTP协议利用超链接和Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则囊括所有能遵循HTTP协议检索Web文档的软件。

网络爬虫不是一个简单的网页下载程序, 而是一个复杂的软件体系。该软件体系具有良好的框架结构和策略方法。网络爬虫往往有不同的用途和目的, 因此结构、策略和算法也有很大差异。在抓取网页的时候, 网络爬虫一般有两种策略:无主题搜索与基于某特定主题的专业智能搜索。其方案主要包括广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页, 然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。深度优先是指网络爬虫会从起始页开始, 一个链接一个链接地跟踪下去, 处理完一条线路之后再转入下一个起始页, 继续跟踪链接。

1.2 数据抽取技术

网络上数据资源的数据类型分为结构化数据和非结构化数据两种。结构化数据即行数据, 是存储在数据库里, 可以用二维表结构来逻辑表达实现的数据, 而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。本文所指的结构化数据的抽取功能, 主要是对一些商业数据库进行的, 其中的一些重要信息数据是以二维表形式在网页中展示, 由于数据一致性与完整性的要求, 需要人工借助模版编辑工具, 生成具有针对性的模版, 进行数据抽取。除了结构化数据以外, 抓取出的数据存在大量非结构化文档报告。这类数据是商业资源公司利用各种报告生成工具生成的, 其收集工作由非结构化数据抽取功能完成。

(1) 结构化数据抽取引擎

结构化抽取引擎的实现机理是利用通用数据查询引擎进行数据查询和转换, 设定查询结构和加载目标数据源之间的映射关系, 由抽取加载引擎进行加载。结构化数据抽取功能主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等模块完成。模版编辑器主要提供给用户生成用户定义模版功能, 模版主要给出爬虫抓取特定网站的动作规则。

(2) 非结构化数据抽取引擎

非结构化数据抽取引擎要求能够利用通用数据管理系统构建各种结构化数据表, 并设定非结构化文档的映射管理, 由非结构化数据抽取引擎进行数据抽取、清洗并加载到结构化数据表中。非结构化抽取引擎也用于将网络爬虫抓取的数据进行数据清理后, 在保证数据质量的前提下, 按照用户需求从中抽取结构化数据, 并把结构化数据存入数据库中。非结构化抽取引擎在保证数据质量的前提下完成从抓取数据到数据库内实体-联系模型的转换。

1.3 文本智能分类技术

目前文本自动分类的主流技术是基于统计机器学习理论的自动文本分类模型。该模型在文本形式化表示方面, 采用向量空间模型作为文本形式化方法[3,4]。对于所有的文档类或未知文档, 都可用空间中的词条向量: (T1, W1;T2, W2;…;Tn, Wn) 来表示 (其中Ti为特征项词条, Wi为对应坐标值, 即特征词条权值) , 从而将文档信息的表示与匹配问题转化为向量空间中向量的表示与匹配问题来处理。假设用户目标为U, 未知文档为V, 两者的相似程度可用向量之间的夹角来度量, 夹角越小说明相似度越高。

2 技术实现

基于网络爬虫技术、数据抽取技术和文本智能分类技术, 设计并研制了全球油气行业动态信息系统Petro DIS。该系统以自主研制的网络爬虫 (网络机器人) 作为网络数据抓取工具, 按设定时间自动到国内外著名油气行业专业信息网站上获取最新油气行业新闻资讯, 经过数据抽取引擎完成清洗整理后, 再以智能分类的方式归并到十一个信息类别中。这十一个类别分别是:宏观形势、国家动态、资产并购、公司动态、许可证、项目动态、勘探开发、油田动态、中游、下游、其他。

全球油气行业动态信息系统Petro DIS主要由网络爬虫模块、网页分析器、文本分类器组成, 如图1所示。其中网络爬虫用于得到目标页面链接, 获取并存储网页;已下载的网页经过网页分析器的结构化、非结构化数据抽取后, 自动分析出解析模板, 并且通过模版, 去除无用的噪声数据, 形成结果数据;结果数据经过文本分类器按照分类体系分类后, 存入全球油气行业动态信息库, 然后通过前台页面定制最终展示成全球油气行业动态信息网页。

2.1 网络爬虫模块

本系统实现的爬虫由HTTP下载模块, 链接分析模块和下载控制模块等三大模块有机地组成一个高效、完整的网页自动下载功能体系。HTTP下载模块利用HTTP网络协议下载, 获取并存储网页内容;链接分析模块能够提取网页内的超链接, 从而获得后续页面入口;下载控制模块控制网页访问次序、更新策略、访问队列调度等工作;下载控制模块采用下载模版控制抓取过程, 下载模版是个XML抓取脚本。这样在编写网页信息抽取工具时, 就不用担心网页格式的变化会影响到信息抽取的结果。因为整个抽取信息的部分都是通过配置对应的脚本实现的, 所以只要修改脚本就可以了, 不用更改程序代码。

2.2 网页解析器

网页解析器由结构化数据抽取模块和非结构化数据抽取模块组成。结构化数据抽取模块主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等组成。具体的数据抽取过程分为:定义爬虫入口、定义数据的过滤规则、处理数据。定义爬虫入口主要给出要抓取网站的URL;过滤规则就是根据用户用xml标签定义的过滤规则从爬得的数据中筛选合适的内容;处理结果数据是把数据写入本地文件或存储。

非结构化数据抽取模块由网页分析器和解析模版库组成。网页解析器负责分析网页, 生成解析模版, 用解析模版来指导抽取数据;解析模版库用来存储已生成的解析模版, 以便重复使用。非结构化数据抽取过程和结构化数据抽取过程基本类似, 但对数据的过滤过程需要特殊处理。因为结构化数据均在同一页面或连续的表中, 可以直接获取, 而非结钩化数据由于往往夹杂着导航信息、广告信息、评论信息等噪声内容, 需通过导航页面获取地址并去除噪声内容才能抓取。按照待解析网页内容的不同可以将其分为两种类型, 采用不同的处理方式:一类是Hub型网页, 这类网页主要用来提供网页导航, 是超链接聚集的网页, 比较容易识别, 解析时只需提取出URL;另一类是主题型网页, 这类网页大多通过文字或图片描述一件或多件事物来表达一定的主题, 解析时除了需要提取出URL外, 还要提取出正文内容。本系统采用DOM树的分析方法[5,6,7]去除网页噪声内容, 通过机器自学习方式构建解析模板库来完成内容型网页正文内容的提取。

2.3 文本分类器

文本分类器的作用是把从互联网上抓取并整理后的每一个文档, 按照事先已确定的文档分类体系, 自动判断归并到对应类别中。分类文本分类器由分类体系、样本集、测试集及分类算法控制模块组成。分类体系、样本集、测试集要根据用户的需求来选取。在全球油气行业动态信息系统中, 用户希望收集石油行业类网页资料, 则分类体系应选用全球油气行业知识分类体系, 样本集和测试集可选用收集的相关类别的中英文文档且已经人工分类处理过的语料。在文本分类器的构造过程中, 特征的提取是关键步骤, 因而提取用户所关注领域的常见词组是数据准备中的一项重要工作。

分类算法控制模块采用自适应神经网络分类算法, 首先选择已分类的中英文文档组成训练样本集, 训练神经网络, 然后将已训练好的神经网络加载到分类器。文档标题训练神经网络的过程如图2所示:文档数据进入数据库后, 先截取文档标题, 并将截取的文档标题传入分词器, 对于中文和英文内容分别采用不同的分词器进行分词。分词结果进入分类器后, 调用神经网络进行训练。

3 全球油气行业动态信息系统Petro-DIS功能特点

作为油气行业中主要依靠网络数据资源自动获取技术构建并自动运营的网站信息系统, 全球油气行业动态信息系统Petro DIS在信息获取、信息分类、网页构建等多方面具有鲜明的功能特点, 实现了无人值守的信息网站构建与运行管理。

(1) 自动获取相关网站指定信息

根据油气行业的应用需要及世界范围内已有油气行业信息网站的新闻信息提供情况, 预先在系统中将国内外著名的油气行业专业信息网站定制到网络爬虫的抓取队列中并指定相应的抓取时间, 从而保证了系统及时获取最新信息。在实际应用中, 根据用户的需求, 还可以不断增加信息源网站及获取策略。

(2) 自动进行信息的专业分类

利用自适应神经网络分类技术, 对所获取的信息进行自动专业分类, 提高分类效率。虽然在系统运行初期, 系统自动分类准确率较低, 但通过定期的人工干预从而不断训练自适应神经网络, 通过自适应学习, 能够不断提高分类的准确性。

(3) 自动构建与更新网页

按照预先设计好的新闻栏目布局模板, 将不断获取到的已分类的新闻信息实时排放在对应栏目的最上部区域, 并根据栏目可视化范围自动剔除旧信息。如果希望改变页面布局与展示风格, 只需在系统中修改页面显示模板即可。

(4) 信息自动归档保存

由于所有信息均是从互联网实时抓取并整理获得, 所以每条信息都具有确定的日期信息。将所有信息 (每日) 按日期归档并保存在数据库中, 按照系统日历, 用户就能非常方便地查询任何一天的历史信息。

(5) 及时提供最新的油气行业动态信息

全球油气行业动态信息系统Petro DIS全天24小时不间断运行, 不断获取与提供全球范围内的最新行业信息, 保证了新闻信息的及时性。自研制成功并投入运行一年以来, Petro DIS系统已成为中石油公司油气行业动态信息的综合性来源之一, 产生了良好的社会经济效益。

摘要:人类社会现已进入了一个信息大爆发的新时代, 如何利用计算机新技术从互联网上自动获取特定主题信息并实时提供服务, 成为信息技术研究领域的热点之一。在网络爬虫、数据抽取、文本智能分类等关键技术研究及实现的基础上, 研制集成了全球油气行业动态信息系统PetroDIS。该系统在信息获取、信息分类、网页构建等多方面做到了自动化, 极大地提高了信息收集效率。

关键词:网络爬虫,网页分析,智能分类,自适应神经网络,油气行业动态信息系统

参考文献

[1]敬晓芳.解析Eclipse和各插件的关系[J].电脑编程技巧与维护, 2010 (2) :24-25.

[2]石磊.EcliPSe:一个用于高性能并行模拟的系统[J].软件, 1992 (6) :440-462.

[3]Yang Yiming.An evaluation of statistical approaches to text categorization[J].In Journal of Information Retrieval.1999, 1 (1/2) :67-88.

[4]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中科院计算所博士学位论文, 2000.

[5]刘晨曦, 吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报:自然科学版, 2007, 25 (2) :149-152.

[6]欧健文, 董守斌, 蔡斌.模板化网页信息的提取方法[J].清华大学学报:自然科学版, 2005, 4 (S1) :1743-1747.

无线数据网络发展策略 篇8

中国的通信用户有两张数据通信网可以使用, 一张是固定通信网络, 一张是无线通信网络。固定通信网络的发展从模拟语音通话开始, 之后发展出了最早的以ISDN、DDN等模式传送数据的窄带数据网络, 接着是伴随着国际互联网发展大潮发展起来的ADSL、FTTB/O/H等模式的宽带互联网时代。近几年, 固定通信网络无法随时移动的特性束缚了它的进一步发展, 而已经在语音通话方面取代了固定网络地位的无线通信网络开始在无线数据宽带传送方面爆发出巨大的潜力, 在2G网络时代, 以GPRS、EGPRS业务为主的无线数据网络已经能够支持一些带宽资源占用较少的数据业务, 如网上阅读和网络聊天软件等, 如今, 中国移动、中国电信和中国联通已商用的3G网络均能够支持超大容量数据传送和视频服务等宽带业务应用, 中国的通信网络迈入宽带无线数据网络时代成为未来无线网络发展的必然趋势。

2 战略分析

无线数据网络的发展刚刚起步, 没有前例可以遵循, 因为与固定数据业务存在较大的行为差异, 业务也无法完全模仿固定数据网络, 所以只能从固定宽带业务发展的基础特征来分析无线数据网络发展的战略构成。

固定宽带数据业务的成功的原因我们可以把它归纳为四部分:一是构成规模的客户群;二是以固定通信网络平台为基础的海量数据资源;三是以固定通信网络平台为基础提供的网络应用服务;四是以固定通信网络平台为本源的庞大价值链条。我们可以这样理解这四个要素:在通信网络建设过程中, 庞大的用户群在固定宽带网络上冲浪并产生了大量的应用需求, 大量的应用需求吸引了大量的宽带应用服务商进行各类应用开发和数据价值挖掘, 最终形成的固定宽带数据平台不仅包含了大量的各类信息数据资源, 而且形成了围绕客户和数据资源的巨大商业链条, 这样的形势反过来又促进了固定宽带数据业务进一步的蓬勃发展。

现阶段, 无线网络已经具备了进一步发展的最重要条件之一:庞大的客户资源, 这些客户使用着运营商们提供的基础服务:语音通话。从有线宽带数据业务成功的因素来看, 接下来的发展重点首先是如何提供客户需要的海量数据资源, 这种资源必须是有别于固定宽带数据网络, 而又适合在无线宽带网络上产生和存在的;其次是如何为无线宽带用户提供认可的、具备商业潜力的应用模式, 这种模式要具备整合功能, 具备无限的想象空间和发展空间;然后是由商业客户搭建或者运营商自主搭建基于无线宽带网络的价值产业链, 改变和拓展国内运营商的无线业务推广模式, 建立基于无线宽带网络的商业价值模式。

通过上述内容的描述, 总结无线数据网络缺乏的三项要素并转化为三项主要工作就是:数据资源库建设、应用模式创新和业务推广模式创新。

3 数据资源库建设

数据资源我们可以把它划分为三大类:普通数据资源、应用服务资源和商业资源。普通数据资源是指可以通过网络获取的免费或者低价的上传下载资源, 应用服务资源是指与网络终端可以实现实时互动的各种游戏、语音和教育等资源, 商业资源是指通过网络获得价值收益的价值链条。这些资源的存在为固定数据网络的发展提供了肥沃的土壤, 广泛的民用资源和巨大的商用价值吸引着全球每一个客户的加盟, 是数据网络蓬勃发展的源动力。

为了掌握数据资源的积累过程, 首先需要整理清楚这些数据资源之间的关系和前后的关联顺序, 掌握数据资源的增长特点和互动关系, 弄明白如何通过基础的资源录入工作和其他辅助工作使数据资源进入自发增长过程, 从而促进客户资源的自动增长, 进一步推动无线数据网络的发展。

在固定数据网络建设的初期, 使用计算机上网的用户可以在网络上找到很多免费的书籍、电影和游戏, 可以快速了解世界各地自己想知道的信息, 还可以通过网络发布自己的意见和想法, 可以和自己分布各地的朋友们在网络上进行实时的互动。了解了上述的这些情况, 我们可以发现, 在这个时期, 网络上的各类数据资源基本上是免费的, 而且种类比较单一, 主要集中于数据资源的上传、下载和客户之间的信息互动。

接下来, 网络开始普及, 网吧开始遍布国内各地, 借助网吧这个终端销售渠道, 在网络上出现了网络游戏代理商, 他们通过销售点卡的方式来获取收益, 再之后出现了网络电子商务, 比如阿里巴巴, 它创新了支付的新方法, 通过网络付款的方式简化了网络交易难度, 并且提升了交易的安全度, 这些成功的网络应用模式为谨慎的商业精英们提供了网络赚钱的典型案例, 大量的商业应用涌入网络, 为商业精英们赚到金钱的同时, 也使网络上的娱乐服务资源和商业资源获得了极大的增长。

说到这里, 我们就对网络数据资源的发展有了一个比较直观的概念:首先, 我们需要拥有一个能够满足用户某些方面需求的免费数据资源库, 这个数据资源库可由所有用户不断进行填充和完善, 需要提供一个可以让用户实现互动的独特的免费平台, 能够不断吸引着更多的用户来使用和在线;其次, 在客户群达到一定规模的情况下, 我们需要创造一种新的商业盈利模式, 让谨慎的商业精英们看到广阔的商业价值, 从而投入精力和金钱;最后, 就是通过一些辅助的方式从侧面推动无线数据网络自发的膨胀和扩张。

4 应用模式创新

免费并且实用的应用服务是促进无线数据网络发展的一项最重要内容, 我们如果去认真地调查一下, 就会发现现在的网络客户已经变的非常精明, 他们不会轻易地去选择收费的应用, 网络上很多的应用服务提供商也改变了收入模式, 出现了大量免费、实用的应用模式, 例如360杀毒软件和百度搜索引擎, 将本来收费的应用变成免费, 在迅速扩张的基础上引导优质客户对高级应用进行消费, 并且在拥有庞大客户资源的基础上, 吸引着其他商业客户在其平台上开发高级商业应用, 从而建立起自己的价值链条。

以这种发展趋势和应用模式为根据, 我们可以把应用项目分为三类:免费应用、收费应用和标准应用接口。

普通应用是指免费提供给用户的各项应用服务, 主要目的是获取庞大的客户群和建设基础数据库。数据库的资源来源包括三个方面, 一是运营商自己录入, 二是客户群在使用过程中产生的数据, 这些数据是数据库资源中最大的一部分, 三是由商业客户提供的数据。提供普通应用的另一个目的是为高级服务建设基础客户群, 为其他的应用开发商培育客户市场, 普通应用的质量好坏, 关系到客户对平台和品牌的评价和信任程度, 当评价和信任程度提升到一定程度, 在有其他应用需求时, 自然会首选该提供商, 因此普通应用服务的提供是应用提供中最重要的部分, 需要应用提供商最认真的对待, 它决定了应用提供商数据平台的生死存亡。

收费应用是指针对高级客户群体提供的专业的和定制的应用服务, 这些高级客户群体是在免费应用客户群体中产生, 他们与数据平台之间建立了初步的信任关系, 他们需要数据平台能够提供更加专业的服务或者是比较特殊的应用服务, 他们愿意为这种应用服务付出报酬, 应用服务商要做的是广泛地了解各种客户的应用需求, 采用自己开发或吸引其他应用提供商加盟平台的发式, 尽可能地充实平台内容, 诱导高级客户群购买更多高级服务, 从而吸引更多的客户和应用开发商加入这个数据平台, 进一步促进数据应用业务的发展。

标准应用接口是指平台拥有者为其他应用开发商建设的标准接入端口, 其他应用开发商采用标准接口方式开发新的应用, 可以快捷地接入数据平台, 并通过数据平台迅速地推向客户端。数据平台拥有者在拥有足够的客户群和成功的盈利模式后, 就可以将这些资源作为平台商业应用的基础, 向所有的应用开发商和应用提供商进行推广, 当建立起便捷和成功的数据平台应用价值链后, 有志于数据网络投资的商人自然会蜂拥而至。

5 业务推广模式创新

业务推广是数据业务实施阶段的重要环节, 新颖的和合适的业务推广方式是保证数据业务能够成功的主要措施, 现阶段, 鉴于广大的用户群对收费产品的谨慎和不信任感, 业务推广的初期采取免费的方式是必须的, 然而, 业务推广的最终目的是盈利, 结合业务的数据库建设分析和应用模式分析, 建立基于数据平台的价值链条建设和吸引应用商和集成商加盟是可行的, 可以保证最终盈利的业务推广模式。

因此, 我们将业务推广模式分为三类:免费推广、建立价值链条、吸引应用商和集成商加盟。

国内电信运营商的业务类型是比较单一的以语音和通道服务为主的业务形式, 但是研究一下当今世界通信的发展趋势可以看到, 大部分成功的通信运营商都在努力地将以语音和通道服务的业务类型向以提供更多增资服务的综合业务类型转进, 努力抢占网络上的客户、数据和应用资源优势。

免费推广需要结合数据资源库的建设和免费应用同时进行, 免费推广需要进行认真的规划和研究, 因为在这个阶段只有投入没有收益, 需要对投入的程度和达到的目标提前做好计划, 分阶段开展适时的投资效果后评估, 在国内, 免费推广阶段适合与政府建立战略合作关系, 加入更多惠民、便民的应用项目和与政务工作结合的应用项目, 以方便政府和民生为手段, 在政府的支持下, 快速推进, 尽快实现受众的大面积覆盖, 并通过政府应用和民生应用等大量免费应用的存在而达到某种程度的资源垄断, 从而为后续发展提供良好的基础平台。

建立价值链条是业务推广中最重要的一环, 因为它关系到一项重要的内容:盈利。为什么这么说呢, 因为我们要把这种盈利模式先建设起来, 然后拿到平台上去实现, 然后需要赚到很多钱, 这些钱要远远超过在应用开发、平台使用和应用推广上面花费的成本, 做到不论是应用开发者, 还是应用经营者, 或是平台经营者, 都可以达到满意的收益水平, 实现共赢才是赚钱的终极目标。在建设价值链条的过程中, 需要充分为应用开发商和应用经营商等众多的价值链构成者考虑, 从每个细小的环节着手分析和建设, 与链条内的可能的合作伙伴群进行充分的沟通和交流, 或者通过建立合作伙伴关系的方式, 共同降低投资风险。

当免费推广达到一定的规模, 价值链条通过了实践的检验, 那么吸引应用商和集成商加盟就是开门迎客般容易, 当出现了一个新的投资领域并且掌握了在新领域赚钱的方法, 投资者们的热钱必然蜂拥而入, 从而加速业务推广。

6 发展策略

大数据视角下优质网络教育资源探析 篇9

关键词:网络,优质教育资源,网络课程

网络教育资源是当代网络信息技术手段服务于教学, 完善和促进学习过程, 提升学习质量的根本。随着MOOC (慕课) 的兴起, 优质的网络教育资源起到了示范性和辐射广的作用。当前优质的网络教育资源, 一是助学, 即广大师生, 通过网络教育资源的学习, 掌握一定的学习能力和知识应用能力, 并完成教育的目标和任务;另一是助教, 即教师通过对名校、名师优质教育资源的学习, 了解相应课程教学前沿, 丰富自身教学内容, 拓宽教学知识面, 优化教学方法, 提高教学质量。大数据环境下为保障教育质量, 提升教学效果, 网络教育资源必须具有良构性和优质性。良构性指网络教育资源具有良好合理的结构, 是有序的, 这样的资源使得学习者在急需时, 能快速、便捷地定位;优质性体现了教育资源本身面向需求者是高质量, 有效的, 具有可用性。本文就现有国内外可用的优质教育资源进行探索, 从大数据视角梳理出优质网络教育资源, 以期形成有效示范, 促进教育的发展。

一、政府引领下创建的高校网络课程精品

网络课程是在先进的教育思想、教学理论与学习理论指导下, 包括教学资源在内的基于Web的课程, 其学习过程具有交互性、共享性、开放性、协作性和自主性等基本特征。国家精品课程资源网 (http://video.jingpinke.com/) 是由国家教育部主导推动的国家级精品课程集中展示平台, 由全国2000多所高校合作建设, 汇集了大量国内外优质教学资源, 目前已形成国内覆盖学科、专业最完整, 课程资源数量最大的教学资源库。从课程建设水平上看, 这些精品课程包括了国家级精品课程、省级精品课程和校级精品课程三种, 截止目前数量分别为3832门、8284门、8169门。精品课程是高等学校教学质量与教学改革工程重要组成部分之一, 是具有一流教师队伍、一流教学内容、一流教学方法、一流教材、一流教学管理等特点的示范性课程。这些课程无论是从教师队伍层次, 教学内容权威性, 还是从课程建设投入量都在国内甚至国际上处于或接近领先水平, 是优质教育资源中的佼佼者, 是教育资源的首选。中国大学MOOC网 (http://www.icourse163.org) , 由爱课程网携手云课堂打造的高校在线学习平台, 主要提供名校名师课程, 这有利于学习者和从事教育的年轻教师学习与提升, 学习资源也MOOC化处理, 截至目前提供了文学艺术19门、哲学历史16门、经管法学15门、基础科学95门、工程技术84门、农林医药21门, 共计195门课程。各高校的MOOC平台, 这些高校自主开发并分享的课程多为学校的名师名课, 具有明显的学校特色, 受到校内学生的欢迎。如北京大学公开课 (http://opencourse.pku.edu.cn/) , 北京师范大学的京师在线 (http://mooc.bnu.edu.cn/) , 北航学堂 (http://mooc.buaa.edu.cn/) 。另外, 台湾方面, 育网开放教育平台 (Ewant, http://www.ewant.org/) , 是由两岸五所交通大学 (包括上海交通大学、西安交通大学、西南交通大学、北京交通大学及国立交通大学) 于2013年共同发起, 国立交通大学负责设计建构的以全球华人为主要的服务对象的开放教育平台。

二、大中型传媒着力打造的优质教育资源

央视网中国公开课频道 (http://opencla.cntv.cn/) 汇集了很多国内外名校的优质课程, 涉及学科广泛, 内容分布包括大学类、高中类、初中类、小学类, 另外还有央视精品、专业课堂、休闲生活、专题策划。其中, 高中类、初中类和小学类在其中占据重要分量, 是基础教育阶段和中等教育阶段的优质网络教育资源, 为中小学生教育均衡、教育公平的实现准备了重要条件。网易公开课 (http://open.163.com/) , 是网易推出的“全球名校视频公开课项目”, 用户可以在线免费观看来自哈佛大学等世界级名校的公开课课程, 可汗学院, TED等教育性组织的视频, 课程整体覆盖范围较广, 定位全球顶级优质课程, 旨在秉承互联网开放、平等、协作、分享的精神, 让人们分享知识, 让知识无国界。新浪公开课 (http://open.sina.com.cn/) 是新浪在线媒体公司在网络教育资源建设中的贡献, 新浪公开课虽内容相对较少, 但涉及到了高考这个话题, 提供了20个与之有关的专题, 其公开课可以按学校分类、按学科分类、按机构分类, 并提供APP下载。超星数字图书馆 (http://www.chaoxing.com) 是中文数字图书馆提供商, 提供图书馆式服务, 主要包括超星慕课和超星学术视频。

三、社会力量积极参与的特色资源

中国计算机学会在线培训 (http://www.ccf.org.cn/) 提供了YOCSEF (Young Computer Scientists&Engineers Forum, 青年计算机科技论坛) 课程144项, ADL (Advanced Distributed Learning, 高级分布式学习) 课程176项, CNCC (China National Computer Congress, 中国计算机大会) 课程69项。学堂在线 (ttps://www.xuetangx.com/) 推出的免费公开MOOC平台, 是教育部在线教育研究中心的研究交流和成果应用平台。过来人公开课网 (http://www.topu.com/) , 它提供部分大学MOOC的接口, 具有直播课程, 同时将服务领域深入到职场求职培训、考试技能培训、语言留学培训方面。搜狐视频教育频道 (http://tv.sohu.com/open) 提供了一些高考百日冲刺的付费课程和部分名校公开课的访问接口。中国教育在线开放资源平台 (http://www.oer.edu.cn/) , 主要为名校公开课提供接口。

四、国际化视野中网络教育精华资源

Coursera (https://www.coursera.org/) , 它与全世界顶尖的大学和机构合作, 提供任何人可学习的免费在线课程。其运作方式是, 学员注册后首先寻找课程开始学习;接着自行决定学习进度, 观看简短课程录像, 回答交互问题, 完成学生互评作业, 并且与同学和老师一起交流;最后完成课程并获得被认可的学习成绩。EDX (http://www.edx.org/) , 是一个最初由哈佛大学和MIT大学创建的非营利性在线组织, 提供全球优秀大学的具有吸引力的MOOC, 这些课程来自MIT、哈佛大学、伯克利大学等大学。Udacity。Udacity (http://www.udacity.com/) 是一家从事网络教育资源的公司, 公司的课程免费, 但学生可选择参加一些收费的认证考试。另外, 还有TED、Khan Academy、Open 2Study、Standford University、Open Learning、Future Learn、Novo ED、Iversity等一系列组织和机构也在提供优质的网络教育资源。

五、结语

优质网络教育资源的分类探索和梳理, 能有效地发展和提升学生自主学习的能力, 为大数据环境下的教育学习者提供更便捷的资源获取途径。优质网络教育资源还能引导教师在教育的信息化背景下创新教学, 并提供重要的技术和资源支撑, 为教育创新提供了宽阔的视野, 另外教育中的翻转课堂, 混合学习的环节的设计, 新教学评价设计都离不开优质的网络教育资源的有效支撑。

参考文献

[1]何克抗.现代教育技术和优质网络课程的设计与开发[J].中国电化教育.2004 (06) :17.

[2]国家精品课程资源网[EB/OL].http://www.jingpinke.com/about/us.2014.11.09.

[3]教育部网.教育部关于启动高等学校教学质量与教学改革工程精品课程建设工作的通知[Z].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s3843/201010/109658.html.2003.04.

网络数据破解楼市迷局 篇10

最近几个月来,围绕国内房地产市场走向的争论已经进入了白热化的程度,尤其是北京社科院最近发布的研究报告更是直接引发了地产商与唱空楼市一方唾沫横飞的口水大战。此外,媒体有关部分开发商找“房托”制造楼市假繁荣的报道则让公众愈发觉得当前的楼市扑朔迷离。

连各地房地产管理部门披露的房地产交易量数据都有可能被开发商“注水”,在这种情况下,有没有其它方法可以对房地产市场的走势做出研判呢?万瑞数据借助新近推出的互联网全数据整合应用平台,从网民上网行为、网民关注热点变化、地产类广告投放量变化等多个角度进行分析研究后认为,国内房地产市场的多空博弈已经进入最后阶段,今年 6~7月可能会成为一个重要的分水岭。

网民:既关注又矛盾

根据万瑞数据对国内主流大中型网站房产频道的全流量监测, 2008年5月以后,网民对楼市关注度曾急剧降低, 9月份之后,网民对楼市的关注度逐渐升高; 2009年春节期间,受放假影响,流量下降,春节后各家网站房地产频道的流量一直保持高位运行的态势。

从中国网民总体构成情况和万瑞数据监测的网站用户情况看,这一群体可以说是房地产市场的主力消费人群,所以把网民当作样本研究房地产市场是比较科学合理的。万瑞数据互联网全数据整合应用平台上 6种监测产品平均覆盖网民总数已经达到约 2亿人。

从上述趋势看, 2009年网民对楼市的关注度还是比较高的。而万瑞数据通过分析网民浏览的具体内容后发现,有关房地产价格走势争论类的内容依然高居榜首。同时,一些具体楼盘项目相关的内容也受到部分网民的关注,此类内容在最受关注内容 TOP100的排行中约占 25%的比例,这一比例比去年第四季度高出近 10个百分点。这说明网民在购房问题上依旧存在明显的矛盾心态。房地产市场一直存在买涨不买跌的特征,在今年 2~3月间媒体报道说房地产销售出现“小阳春”期间,网民对具体楼盘项目的关注明显呈现出上升的趋势。但当北京社科院的报告出炉、媒体披露地产商雇“房托”做假的报道发布后,网民对具体楼盘项目的关注出现了一定的下滑趋势。

开发商真的没钱了?

影响房价今后走势的最大因素是开发商本身的资金状况,而开发商的资金状况如何则是各家房地产商的核心机密。有没有什么方法能够判断房地产开放商的资金状况呢?万瑞数据运用了一个简单但可能很有效的方法,那就是分析开发商的广告投放量。

根据万瑞数据对今年 3月份以来网络广告投放量的监测,房地产类网络广告的投放呈现出锐减的趋势: 4月份前两周房地产网络广告主的数量比 3月份的最高值下降了43.6%,同期广告创意数降低了 45.5%。同时,房地产类网络广告的投放频度(按照投放天 /次计算)也大幅下降50.8%。根据估算, 4月份前两周地产商网络广告投放金额比3月份的周最高值下降了 63.4%。

万瑞数据认为, 4月份前两周地产类网络广告的锐减,可能与部分开发商将市场推广资金用于参加类似北京春季房展等展会有关,但反观汽车行业的情况,在今年上海车展前期,汽车厂商的网络广告投放并未出现类似地产类网络广告的锐减趋势。由此看来,资金捉襟见肘的确是目前多数地产商面临的共同问题。

股市升温:最后一根稻草?

当前国内房地产市场买卖双方仿佛是在进行一场巨大的赌博:买方赌的是房价继续走低,甚至出现大幅滑落;而卖方则在赌经济形势尽快好转,以便维持高位的房价。前段时间房地产市场的“小阳春”,不管是真是假,都表明大多数潜在的消费者仍未结束持币观望的心态。在这种形势下,时间和耐心成了买卖双方谁将最终能赌赢的关键因素。而在时间方面,卖方的压力要比买方大得多——有关资料显示,国内多数房地产开发商的资产负债率都比较高,有些甚至超过了警戒线。随着还款时间的临近,开发商的资金压力会越来越大。

国内房地产市场前两年的价格飙升,炒房的投资客“贡献”不小。接下来房价的走势与“投资型购房”仍然有很大的关系。北京等地房地产管理部门披露的数据显示,今年第一季度全国主要城市二手房的交易比较活跃,这说明大批投资型购房者选择了套现离场。这部分投资者套现后,是否会把回笼的资金继续用于买房?这将会对接下来的房价产生很大的影响。

但从现在的情形看,一个意外的情况可能会把套现后炒楼投资者的资金大量分流。这个意外情况就是近期国内股市的回暖。

万瑞数据针对国内大中型网站财经频道和多家主流财经网站的全流量监测显示,近期由于股市大涨,导致财经类网站和频道人气飙升,网民对股市的关注背后隐含着可能的投资行为。国内股市半年多来持续低迷,很多研究机构和投资者都认为股市已经到了触底反弹的阶段,这无疑会吸引大量资金进入股市,并在客观上分流进入楼市的资金。

如果接下来几个月股市继续回暖,那么国内房地产开发商将面临雪上加霜的局面:房价疲软走低加上股市升温,会让很多具有购买力的消费者选择把手上的资金投入股市获利,同时等待房价的进一步下跌。其结果是把相当一部分潜在购房者的实际购买行为推后几个月甚至半年。

上一篇:高等职业数学下一篇:场依存和场独立