网络数据获取

2024-07-15

网络数据获取(精选十篇)

网络数据获取 篇1

随着互联网技术的快速发展与广泛应用, 全球互联网的各类专业网站上每时每刻都在上载更新着成千上万的各类新闻信息、行业观点、研究报告等庞大资讯。依靠从互联网上搜集、整理并编排相关行业信息, 就能构建相对较完整的专业动态信息网站, 进而提供相应的行业动态信息服务。但目前大部分行业动态信息网站中的互联网信息收集与整理都还依靠人工手动完成。这种方式虽然能够收集到具有较高质量的信息, 但需要花费大量时间频繁浏览相应资讯网站, 人工工作量很大。因而研究网络数据资源自动获取技术并投入行业系统应用, 对于高质量完成行业信息系统数据资源建设及今后资源的持续更新具有非常重要的意义。基于Eclipse可扩展开发平台[1,2], 采用JAVA及XML脚本语言, 研发了包括网络爬虫、数据抽取、文本智能分类技术在内的, 完整的网络数据资源自动获取技术, 并成功应用于全球油气行业动态信息系统Petro DIS。

1 关键技术

1.1 网络爬虫技术

网络爬虫 (Web Crawler) , 是一种按照一定的规则, 自动地抓取互联网上信息的程序或者脚本, 其定义有广义和狭义之分。狭义上指遵循标准的HTTP协议利用超链接和Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则囊括所有能遵循HTTP协议检索Web文档的软件。

网络爬虫不是一个简单的网页下载程序, 而是一个复杂的软件体系。该软件体系具有良好的框架结构和策略方法。网络爬虫往往有不同的用途和目的, 因此结构、策略和算法也有很大差异。在抓取网页的时候, 网络爬虫一般有两种策略:无主题搜索与基于某特定主题的专业智能搜索。其方案主要包括广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页, 然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。深度优先是指网络爬虫会从起始页开始, 一个链接一个链接地跟踪下去, 处理完一条线路之后再转入下一个起始页, 继续跟踪链接。

1.2 数据抽取技术

网络上数据资源的数据类型分为结构化数据和非结构化数据两种。结构化数据即行数据, 是存储在数据库里, 可以用二维表结构来逻辑表达实现的数据, 而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。本文所指的结构化数据的抽取功能, 主要是对一些商业数据库进行的, 其中的一些重要信息数据是以二维表形式在网页中展示, 由于数据一致性与完整性的要求, 需要人工借助模版编辑工具, 生成具有针对性的模版, 进行数据抽取。除了结构化数据以外, 抓取出的数据存在大量非结构化文档报告。这类数据是商业资源公司利用各种报告生成工具生成的, 其收集工作由非结构化数据抽取功能完成。

(1) 结构化数据抽取引擎

结构化抽取引擎的实现机理是利用通用数据查询引擎进行数据查询和转换, 设定查询结构和加载目标数据源之间的映射关系, 由抽取加载引擎进行加载。结构化数据抽取功能主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等模块完成。模版编辑器主要提供给用户生成用户定义模版功能, 模版主要给出爬虫抓取特定网站的动作规则。

(2) 非结构化数据抽取引擎

非结构化数据抽取引擎要求能够利用通用数据管理系统构建各种结构化数据表, 并设定非结构化文档的映射管理, 由非结构化数据抽取引擎进行数据抽取、清洗并加载到结构化数据表中。非结构化抽取引擎也用于将网络爬虫抓取的数据进行数据清理后, 在保证数据质量的前提下, 按照用户需求从中抽取结构化数据, 并把结构化数据存入数据库中。非结构化抽取引擎在保证数据质量的前提下完成从抓取数据到数据库内实体-联系模型的转换。

1.3 文本智能分类技术

目前文本自动分类的主流技术是基于统计机器学习理论的自动文本分类模型。该模型在文本形式化表示方面, 采用向量空间模型作为文本形式化方法[3,4]。对于所有的文档类或未知文档, 都可用空间中的词条向量: (T1, W1;T2, W2;…;Tn, Wn) 来表示 (其中Ti为特征项词条, Wi为对应坐标值, 即特征词条权值) , 从而将文档信息的表示与匹配问题转化为向量空间中向量的表示与匹配问题来处理。假设用户目标为U, 未知文档为V, 两者的相似程度可用向量之间的夹角来度量, 夹角越小说明相似度越高。

2 技术实现

基于网络爬虫技术、数据抽取技术和文本智能分类技术, 设计并研制了全球油气行业动态信息系统Petro DIS。该系统以自主研制的网络爬虫 (网络机器人) 作为网络数据抓取工具, 按设定时间自动到国内外著名油气行业专业信息网站上获取最新油气行业新闻资讯, 经过数据抽取引擎完成清洗整理后, 再以智能分类的方式归并到十一个信息类别中。这十一个类别分别是:宏观形势、国家动态、资产并购、公司动态、许可证、项目动态、勘探开发、油田动态、中游、下游、其他。

全球油气行业动态信息系统Petro DIS主要由网络爬虫模块、网页分析器、文本分类器组成, 如图1所示。其中网络爬虫用于得到目标页面链接, 获取并存储网页;已下载的网页经过网页分析器的结构化、非结构化数据抽取后, 自动分析出解析模板, 并且通过模版, 去除无用的噪声数据, 形成结果数据;结果数据经过文本分类器按照分类体系分类后, 存入全球油气行业动态信息库, 然后通过前台页面定制最终展示成全球油气行业动态信息网页。

2.1 网络爬虫模块

本系统实现的爬虫由HTTP下载模块, 链接分析模块和下载控制模块等三大模块有机地组成一个高效、完整的网页自动下载功能体系。HTTP下载模块利用HTTP网络协议下载, 获取并存储网页内容;链接分析模块能够提取网页内的超链接, 从而获得后续页面入口;下载控制模块控制网页访问次序、更新策略、访问队列调度等工作;下载控制模块采用下载模版控制抓取过程, 下载模版是个XML抓取脚本。这样在编写网页信息抽取工具时, 就不用担心网页格式的变化会影响到信息抽取的结果。因为整个抽取信息的部分都是通过配置对应的脚本实现的, 所以只要修改脚本就可以了, 不用更改程序代码。

2.2 网页解析器

网页解析器由结构化数据抽取模块和非结构化数据抽取模块组成。结构化数据抽取模块主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等组成。具体的数据抽取过程分为:定义爬虫入口、定义数据的过滤规则、处理数据。定义爬虫入口主要给出要抓取网站的URL;过滤规则就是根据用户用xml标签定义的过滤规则从爬得的数据中筛选合适的内容;处理结果数据是把数据写入本地文件或存储。

非结构化数据抽取模块由网页分析器和解析模版库组成。网页解析器负责分析网页, 生成解析模版, 用解析模版来指导抽取数据;解析模版库用来存储已生成的解析模版, 以便重复使用。非结构化数据抽取过程和结构化数据抽取过程基本类似, 但对数据的过滤过程需要特殊处理。因为结构化数据均在同一页面或连续的表中, 可以直接获取, 而非结钩化数据由于往往夹杂着导航信息、广告信息、评论信息等噪声内容, 需通过导航页面获取地址并去除噪声内容才能抓取。按照待解析网页内容的不同可以将其分为两种类型, 采用不同的处理方式:一类是Hub型网页, 这类网页主要用来提供网页导航, 是超链接聚集的网页, 比较容易识别, 解析时只需提取出URL;另一类是主题型网页, 这类网页大多通过文字或图片描述一件或多件事物来表达一定的主题, 解析时除了需要提取出URL外, 还要提取出正文内容。本系统采用DOM树的分析方法[5,6,7]去除网页噪声内容, 通过机器自学习方式构建解析模板库来完成内容型网页正文内容的提取。

2.3 文本分类器

文本分类器的作用是把从互联网上抓取并整理后的每一个文档, 按照事先已确定的文档分类体系, 自动判断归并到对应类别中。分类文本分类器由分类体系、样本集、测试集及分类算法控制模块组成。分类体系、样本集、测试集要根据用户的需求来选取。在全球油气行业动态信息系统中, 用户希望收集石油行业类网页资料, 则分类体系应选用全球油气行业知识分类体系, 样本集和测试集可选用收集的相关类别的中英文文档且已经人工分类处理过的语料。在文本分类器的构造过程中, 特征的提取是关键步骤, 因而提取用户所关注领域的常见词组是数据准备中的一项重要工作。

分类算法控制模块采用自适应神经网络分类算法, 首先选择已分类的中英文文档组成训练样本集, 训练神经网络, 然后将已训练好的神经网络加载到分类器。文档标题训练神经网络的过程如图2所示:文档数据进入数据库后, 先截取文档标题, 并将截取的文档标题传入分词器, 对于中文和英文内容分别采用不同的分词器进行分词。分词结果进入分类器后, 调用神经网络进行训练。

3 全球油气行业动态信息系统Petro-DIS功能特点

作为油气行业中主要依靠网络数据资源自动获取技术构建并自动运营的网站信息系统, 全球油气行业动态信息系统Petro DIS在信息获取、信息分类、网页构建等多方面具有鲜明的功能特点, 实现了无人值守的信息网站构建与运行管理。

(1) 自动获取相关网站指定信息

根据油气行业的应用需要及世界范围内已有油气行业信息网站的新闻信息提供情况, 预先在系统中将国内外著名的油气行业专业信息网站定制到网络爬虫的抓取队列中并指定相应的抓取时间, 从而保证了系统及时获取最新信息。在实际应用中, 根据用户的需求, 还可以不断增加信息源网站及获取策略。

(2) 自动进行信息的专业分类

利用自适应神经网络分类技术, 对所获取的信息进行自动专业分类, 提高分类效率。虽然在系统运行初期, 系统自动分类准确率较低, 但通过定期的人工干预从而不断训练自适应神经网络, 通过自适应学习, 能够不断提高分类的准确性。

(3) 自动构建与更新网页

按照预先设计好的新闻栏目布局模板, 将不断获取到的已分类的新闻信息实时排放在对应栏目的最上部区域, 并根据栏目可视化范围自动剔除旧信息。如果希望改变页面布局与展示风格, 只需在系统中修改页面显示模板即可。

(4) 信息自动归档保存

由于所有信息均是从互联网实时抓取并整理获得, 所以每条信息都具有确定的日期信息。将所有信息 (每日) 按日期归档并保存在数据库中, 按照系统日历, 用户就能非常方便地查询任何一天的历史信息。

(5) 及时提供最新的油气行业动态信息

全球油气行业动态信息系统Petro DIS全天24小时不间断运行, 不断获取与提供全球范围内的最新行业信息, 保证了新闻信息的及时性。自研制成功并投入运行一年以来, Petro DIS系统已成为中石油公司油气行业动态信息的综合性来源之一, 产生了良好的社会经济效益。

摘要:人类社会现已进入了一个信息大爆发的新时代, 如何利用计算机新技术从互联网上自动获取特定主题信息并实时提供服务, 成为信息技术研究领域的热点之一。在网络爬虫、数据抽取、文本智能分类等关键技术研究及实现的基础上, 研制集成了全球油气行业动态信息系统PetroDIS。该系统在信息获取、信息分类、网页构建等多方面做到了自动化, 极大地提高了信息收集效率。

关键词:网络爬虫,网页分析,智能分类,自适应神经网络,油气行业动态信息系统

参考文献

[1]敬晓芳.解析Eclipse和各插件的关系[J].电脑编程技巧与维护, 2010 (2) :24-25.

[2]石磊.EcliPSe:一个用于高性能并行模拟的系统[J].软件, 1992 (6) :440-462.

[3]Yang Yiming.An evaluation of statistical approaches to text categorization[J].In Journal of Information Retrieval.1999, 1 (1/2) :67-88.

[4]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中科院计算所博士学位论文, 2000.

[5]刘晨曦, 吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报:自然科学版, 2007, 25 (2) :149-152.

[6]欧健文, 董守斌, 蔡斌.模板化网页信息的提取方法[J].清华大学学报:自然科学版, 2005, 4 (S1) :1743-1747.

高手推荐的直接获取数据库数据方法 篇2

1.使用access数据库的系统存在SQL注入漏洞;mssql数据库也支持这个技术

2.需要知道欲爆数据所在的表的表名以及这个表下的一个字段名,一般都是id字段

使用本技术显而易见的优势在于:

1.可以不需要引号,过滤引号对本技术没有影响

2.可以快速的知道敏感数据的内容,而不必像以往一样慢慢的猜解,中文、特殊字符等等都通杀

3.在SQL Server屏蔽了错误信息之后仍然可以快速得到敏感数据内容

4.可以在不知道关键(欲知数据的)字段名的情况下仍然能够获取到欲知数据

咋一看可能这个技术很难,其实很简单。一共有两个难点,一般的第一个难点在看到结果以后都很容易想到,但是第二个难点却的确有点点麻烦。

首先看一个表格,是union的语法。这也是爆出数据的主要原理。如下图所示:

当我们使用SQL Inject技术插入union语句以后,只要两个select查询得到的列数相同,那么整条SQL语句执行完成以后,得到的查询结果就变成了union后面select得到的数据。所以就有可能将我们所需要的数据爆出来。来看一个简单的例子:

www.chinakj.com/SoftView.asp?SoftID=3903%20union%20select%20username,password,1,1,1%20from%20admin

这是一个SQL Server的服务器,关闭了错误信息的回报,所以不能够按照以往的方法直接得到敏感数据。通过SQL Inject插入union语句以后,可以大胆的猜测到所执行的SQL语句变成了:

select * from Soft where SoftID=3903 union select username,password,1,1,1 from admin

那么在正常情况下显示Soft第1、2个字段值得地方就会显示admin的username和password字段,后面的3个1也是同理替代了。按照这个特性,我们当然也可以直接得到Admin_UserInfo表里面的username和password字段。构造的语句如下所示:

www.chinakj.com/SoftView.asp?SoftID=3903%20union%20select%20username,password,1,1,1%20from%20Admin_UserInfo%20where%20username

以上就是简单的利用union来实现对敏感数据的获取,而不通过复杂的暴力拆解。为了实现在不知道字段名同样能够得到其中的数据这个目的的时候,我们当然就应该想到使用*来代替字段名。这样只要*所代表的字段再加上几个1的数目和脚本中的select查询表中的字段数目相同,那么就同样可以得到不知道字段名的数据了。

考虑到这样一种情况,有这样一条语句:select id,hit,softname,softURL from soft where id=10。其中能够在网页中正常显示出来的字段是softname和softURL,那么我们在使用union的时候就应该调整*所在的位置,一般admin表中结构为id username password,那么在注入上面这条假设的语句的时候就应该这样构造SQL语句:select 1,* from admin。使*所代替的username和pssword字段处于softname和softURL两个字段的位置上,这样网页才能够将我们想要得username和password字段乖乖的交出来。当然这里只是最简单的一个例子来说明,有很多时候一个表里面可能有十几个字段,我遇到最长的是四十三个字段。那么脚本中使用select *来做查询的话,我们在构造union select就应该用1凑数到四十三个字段。其中当然是会有一些字段不被网页显示出来,这就需要考虑union select后面的*号所在的位置了,

相信这个应该不用我多说了。

上面说的语法完全符合SQL Server。但是Access和SQL Server相比较,真的是小巫见大巫了。在SQL Server里面,当我们使用select *,1,1,1 from admin语句查询得到的记录集合分别是:* 1 1 1。但是在access当中上面的这条语句查询的结果是1 1 1 *,也就是说无论你将*号处于这群1中间的什么位置上,*所代表的数据总是处于查询结果的最后面。用一个复杂点的例子作说明:

www.hnp2p.com/mov/view.asp?id=1916%20union%20(select%201,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16%20from%20admin)

这个站点使用的是access数据库,可以看到能够正常显示出来的字段是2、3、7、8、10、11,而后面的字段却不会显示出来,去掉14,15,16换上*号,页面同样显示出数字,也就是说admin中的字段数是三个,肯定是id username password这种结构,但是除了id字段其他的字段都不能够被猜测出名字。按照在上面SQL Server中所使用的方法移动*号的位置以求能够将敏感数据爆出来,在access中是不可行的。原因是access始终将*好所代替的字段放在查询数据集的最后面。Access查询出来的结果永远都是:1,2,3,4,5,6,7,8,9,10,11,12,13,*这个样子。为了将*好所代替的字段表示出来,我们必须将*所代替的字段移动到其他位置上。先看结果:

www.hnp2p.com/mov/view.asp?id=1916%20union%20select%201,*%20from%20(((admin%20as%20a%20inner%20join%20admin%20as%20b%20on%20a.id=b.id)%20inner%20join%20admin%20as%20c%20on%20c.id=b.id)%20inner%20join%20admin%20as%20d%20on%20d.id=c.id)%20inner%20join%20admin%20as%20e%20on%20d.id=e.id

通过这样构造的语句的执行,最终查询得到的数据形式是

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

1,a.id a.name a.pwd b.id b.name b.pwd c.id c.name c.pwd d.id d.name d.pwd e.id e.name e.pwd

其中第3和第7个字段正好就是我们想要得username和password字段的值。这里我使用的是join语法,将两个表连接(相加)起来从而构造得到这样的一个满足我们要求的查询结果。

Join分为全部连接、左连接和右连接,具体区别可以去查看SQL语法。在这里,access中我们不管选择哪一种连接方式效果都等同于全部连接。看一个简单的join语法

SELECT *

FROM (表1 INNER JOIN 表2 ON 表1.序号=表2.序号)

INNER JOIN 表3

ON 表1.序号=表3.序号

转换为实例就是:

select 1,2,3,4,*

from ((admin as a inner join admin as b on a.id=b.id)

inner join admin as c on c.id=b.id)

inner join admin as d on d.id=c.id

网络数据获取 篇3

关键词:数据档案大数据移动终端

在大数据时代,移动终端设备层出不穷,其优势也愈发明显,不仅携带方便,可以随时随地获取数据,而且具备综合信息处理平台的作用,可以简单处理各类数据信息,以及发布和传输数据。更为重要的是,移动数据终端将拍照、通信、网络处理等技术整合,可以满足多种需求。鉴于移动终端的优势,以及大数据时代产生海量数据以后,一些具有长期保存价值的数据将成为数据档案的现状,笔者认为档案部门未来可以利用移动终端来获取数据档案。

一、数据档案的概念和分类情况

数据档案,是指以数据形式存在的具有保存和利用价值的数据资源。相较而言,档案数据则更多地从归档数据的角度进行探讨,其主要包括两大部分,一是归档单位产生和移交的业务类数据。二是档案部门将馆藏档案数字化后产生的数据。而本文所指的数据档案则从档案信息资源的角度出发,主要包括公共档案馆、数据开发商、个人家庭保管的具有保存和利用价值的数据。由于目前没有相关文献涉及数据档案的详细分类,笔者在借鉴有关概念的基础上,结合档案工作,以数据产生的渠道为依据,将移动终端持有者可利用的数据档案资源划分为三大类。一是公共数据档案。这类数据档案是开放获取的,不受具体限制,是指各种具备国家档案属性的各类数据档案资源。例如国家各级综合档案馆保管的数据档案资源,政府机构和国有企事业单位保管的国家所有数据档案资源。二是商业性数据档案资源。是指由各类商业机构,根据商业需要开发的营利性数据档案资源。例如,腾讯公司在全国建立的数据中心保管的各类数据。三是私有性质的数据档案资源。是指属于个人或者家庭、家族、私有机构保管的数据档案资源。例如,个人的摄影电子照片、家族或者私有企业保管的档案数据资源等。

二、各类数据档案资源利用移动终端的条件

(一)档案资源必须为数据档案

档案资源,包括传统档案资源与数字档案资源。传统档案资源一般为非数字环境下的各类载体所承载的档案资源,包括纸质档案、实物档案等,而数字档案资源,包括在各类活动中形成的电子文件直接转化而来的数字档案资源,以及馆藏档案数字化后的数字档案资源。这两种数字档案资源的产生和利用都必须依托数字化背景。档案在线利用可以从文本、声音、图片、影像等方面综合呈现档案信息,但是这类档案资源脱离了传统载体,依托数字环境产生和发展。实现数据档案资源的在线利用,作为信息来源的档案资源必须具有共享性、交互性、异地性、异时性等多种优势。共享性与交互性使数据档案资源在线利用成为开放的、可能的,异地性与异时性保证了数据档案资源利用过程中的便捷与高效。

(二)利用专门的软件和数据平台,才能下载和在线阅读

数据档案需借助中间平台实现其利用功能。软件和数据平台起到了知识信息资源桥梁的作用,沟通了桥梁的两端——作为资源提供方的所有者与作为资源需求方的用户。软件与数据平台开发者根据用户的需求和检索行为模式,在平台的构建过程中实现查阅、在线阅读、下载等多种功能,以便信息资源的获取。利用专门的软件和数据平台,一方面保证了档案信息资源的获取行为是可能的,无论是查阅还是深度阅读,都能有资源的获取渠道;另一方面又限制了获取档案信息资源的渠道,将利用行为限制在一定范围内,防止档案信息资源的滥用与触及法律的行为,如非法获取档案信息资源的行为。

(三)利用方必须获得数据档案资源所有者的授权或支付费用

依托软件和数据平台的档案信息资源在线利用,要符合一定的条件,即档案资源的利用行为需保护数据档案资源所有者的权益,协调好数据档案资源利用者与数据档案所有者之间的关系。在这种前提下,利用者或者经过所有者的授权,保证利用行为符合数据资源所有者的意愿,利用行为未侵犯数据资源所有者包括知识产权在内的各类合法权益;另一方面,利用者可以通过支付一定的费用,购买数据档案。现阶段的万方数据库、维普资讯网、中国知网等各类数据库便是通过收取费用允许用户下载相应文献,鼓励用户以支付费用的形式购买需要的各类信息资源。

三、利用移动终端获取数据档案的模式探索

利用移动终端设备获取数据档案,与传统档案信息获取行为互为补充,形成高效、便捷、多渠道的档案信息获取模式。不同性质的数据档案,也应采取不同的数据获取方式,使数据档案借助移动终端设备,得到最大化的利用。

(一)公共性数据档案资源获取模式

公共性数据档案资源获取模式,是一种用户主动获取公共数据档案资源的模式。由于公共档案数据资源涉及较多政府、企事业单位的档案信息,部分档案数据涉及隐私和安全,因此不便公开。利用者获取公共数据档案资源,不需要支付费用,但需经过在线申请程序,由档案数据资源所有者甄别其隐私性和安全性。对由于各种原因不能推送的档案数据资源,通过移动网络给予申请者及时反馈,并说明理由;对于可公开的档案数据,通过移动网络发送至申请者,申请者便可借助移动终端设备接收数据进行下载利用。

(二)商业性数据档案资源获取模式

商业性数据档案资源获取模式,是一种用户通过在线支付获取商业性数据档案资源的模式。对于商业性档案数据资源,用户需经过在线申请程序,对所需资源进行确认,并由商业机构审核通过。根据申请者想要获取的档案数据资源的数量、价值及商业性机构的有关规定,申请者支付指定的费用购买所需档案数据资源,并利用移动网络第三方在线支付平台,如支付宝、百付宝、财付通、银联在线等,支付一定的费用,实现对数据资源的购买行为。商业机构继而对用户支付的档案数据资源调出并推送至支付用户。支付用户借助移动终端设备接收数据,进行下载利用。

(三)私有性档案数据资源获取模式

私有性档案数据资源获取模式,是一种用户利用专门平台搜索资源门户网站,再获取特定的私有数据资源的模式。用户对私有档案数据资源的获取,首先通过移动网络平台在线搜索,将所需资源限定在一定范围内。私有数据资源的所有权确认是用户获取数据资源的关键环节,基于私有数据资源的私有性和隐秘性特征,其归属权不像公共档案数据资源那样易于知晓,需要用户在经过资源搜索后,对资源的归属权多方查证、确定,防止网络环境下数字档案的复制行为所引起的归属权不明问题产生。其次,对私有档案归属权的确认行为引导用户对所有权人提出申请,获取私有数据资源。用户与所有者达成协议,或者基于商业模式的在线支付,或者通过其他途径获得免费特许,享受指定私有数据利用资格。最后,由所有者进行数据推送,用户通过移动终端设备接收数据信息,实现对私有数据资源的利用。

(四)数据中心主动对特定用户精准推荐数据档案模式

我国的政府机构、企事业单位,在建立数据中心和档案数据化的基础上,可以利用移动网络,由数据中心主动对一些特定用户精准推荐数据档案资源。数据中心通过移动终端精准推荐数据服务,需要具备两个条件:(1)选定特定的数据档案资源。例如,数据中心保存的有关个人的任职、转正、退休、奖励等相关数据,精准推荐给用户个人。(2)选定特殊用户的终端识别号(用户号),例如手机用户的微信号、手机号、手机邮箱等。只有在选定了特殊的用户后,数据中心才能主动给选定用户精准推荐数据档案。精准推荐数据档案的服务,可以提高档案的利用效率,同时也将档案服务方式由被动转为主动。例如,一些高校档案馆,整合数据库中一些教师个人的职称、学历、科研、财务经费等数据,利用移动网络平台主动推荐给教职工,教职工在手机上直接点击就可以在线阅读和下载数据档案。

综上所述,在大数据时代的背景下,必须在原有档案信息资源获取方式的基础上,加强对移动终端获取数据档案模式的研究。同时,也应对移动终端获取数据档案过程中可能出现的问题加以重视,包括移动终端获取档案资源过程中产生的知识产权问题、数据开发商与档案资源所有者之间的博弈问题、档案信息资源提供过程中应兼顾社会服务性与各方利益平衡等问题。

*本文为2015年国家档案局科技项目“大数据时代国家综合档案馆的数据精准推荐及数据专题服务研究”(项目编号:2015—X-16)的阶段性研究成果。

参考文献:

[1]李广都.网络强国战略下区域性数据档案中心建立分析[J].中国档案,2015(10):64-65.

[2]傅荣校.我国国家档案馆公共服务能力评估研究综述[J].浙江档案,2014(6):10-13.

[3]黄丽华,宋华.移动档案馆建设研究[J].中国档案, 2016(6):59-61.

网络数据获取 篇4

技术人员通常通过人工观测或者常规技术手段,获得水文信息观测数据,但是如果遇到极端条件或者技术员无法前往的地域,尤其是突发自然灾害区域,相比通常的手段,利用无线网络,则能够实现实时监测。

当前关于无线监控网络的具体研究,前端监控点依旧是采用传统的信号采样压缩方法。利用奈奎斯特采样定理,先高速率采样后再压缩,这样的信号处理方法,导致采样资源利用率较低。

Donoho[1]和Candes等人[2]提出的CS理论(压缩传感或可压缩采样理论),使得该问题的解决变为可能。

CS的大体思路是:压缩与采样一并进行,通过 Φ 随机观测矩阵,将一个在某个正交基或 ψ 框架上(如小波变换域和DCT)是可压缩的或稀疏的高维信号x ∈ RN投影到M维的低维空间上,并且证明了重建信号的足量信息包含在这样的随机投影中。

本文介绍了单个传感器利用压缩感知理论获取视频数据的方法,从传感器对信号的自适应压缩采样和宽带无线网络的频谱分配方法两方面阐述了单路压缩感知的内容,利用OMP算法重构了视频图像。最后对本文研究的内容进行总结并展望。

2 单路压缩感知

该部分主要介绍了单个传感器利用压缩感知理论获取视频数据的方法,从传感器对信号的自适应压缩采样和宽带无线网络的频谱分配方法两方面重点阐述了单路压缩感知的内容。整个系统的框图如图1所示。

2.1 单个传感器视频信号自适应采样

传统方法获得视频监测场景后,在图像上根据分配的每个像素值进行离散余弦变换(DCT)[3]。DCT变换后可忽略许多小系数或零值系数,将其在量化或熵编码之前丢弃。因此,尽管完整获得了每帧图像,但是在DCT变换后许多获得的信息被丢弃了,在获得图像的过程中造成了不必要的负担。传统的如奈奎斯特采样率非常高以至于压缩样本数据量很大,成为传输或存储的一个大问题。近年来才被提出的信号压缩采样理论为解决数字图像处理和视频信号采样中的类似问题提供了一种很好的思路。本文正是在压缩传感理论基础上提出了视频信号自适应采样法。具体包括如下步骤:

(1)利用无线网络视频摄像机或视频采集卡对视频信号源进行视频采集,每个采集点得到一组视频帧;

(2)将第(1)中获得的第一个视频帧作为参考帧;

(3)将每个参考帧均分成大小为n*n像素的B个像素块,对每个像素块进行离散余弦变换(DCT);利用压缩采样测试像素块的稀疏性,测试的方法为:选定一个小的正数C,T为所有像素块中非显著离散余弦变换系数平均值作为门限值,如果像素块的离散余弦变换系数值的绝对值小于C大于T,那么就认为该块是稀疏的,反之则是非稀疏的;

(4)将连续非参考帧均分成B个像素块,连续非参考帧中的所有像素块在空间上对应于之前参考帧的稀疏块Bs将被压缩采样,其余的部分将进行传统采样。

进行仿真实验,将本文的方法与传统视频采样方法在不同采样率条件下的信噪比进行比较。如图2所示,可以看出本文在视频采集端使用分块压缩采样方法,与传统视频采样方法相比大大减少了测量数据,提高了采样效率。

2.2 无线网络的频谱认知方法

固定的频谱分配策略,长期授权的静态频谱管理方式,是无线网络中通常所采用的。虽然这种方式可以消除用户间的相互影响,但是主用户没有发生数据输送时就会浪费频谱资源,造成频谱资源稀缺。

本文针对现有技术存在的缺陷,提出了压缩感知频谱信号的方法。具体步骤如下:

(1)每个认知无线电设备进行独立的局部频谱测量,得到模拟基带信号xj(t) ;

(2)利用压缩感知方法将获得的模拟信号xj(t) 转变为稀疏采样信号yk:

j=0,1,2KN,xj为N × 1 向量,j=0,1,2KN中的N为N × 1 向量xj的行数。用变换矩阵M × N的 ΦA,得到M´1向量yk,其中k=0,1,2KM中的M为M´1向量yk的行数。

(3)稀疏采样信号yk自适应变化后变为ry传送至融合中心;

(4)融合中心得到ry,1,⋯,ry,j后,通过联合重构算法进行联合功率谱密度Sx,j的估计:

(5)将得到的Sx,j值分别进行能量检测得到相应的频谱判决结果dj。能量检测方法就是通过能量计算值与设置门限的比较来判断,高于判决门限的,则该频段内有主用户的存在。

(6)融合中心将所有单个的判决结果按照或逻辑融合起来,得到最终的判决,以推断所观察频带中的主用户是否存在。

进行仿真实验,本文方法与传统单支路方法以及赵林靖等在其发明专利《基于并行压缩感知的宽带认知无线电频谱检测方法》中提出的方法,在不同信噪比条件下对频谱的正确检测概率进行了比较。结果如图3,可以看出,本文方法的频谱正确检测概率要明显优于其他两种方法。

2.3 终端图像处理

终端收到传输的图像信号后,进行图像的重构,利用正交匹配算法(OMP)进行信号重构,得到原始图像的频域重构信号。整个系统的最终目的是,图像的再次重现。图像的重现,可以利用分割、重组,甚至部分重点突出等手段对图像进行处理。图4是原始图像和重构图像的对照图。

3 小结

我们所提出的方法理论优势在于,应用CS理论,在视频采集、传输和获取三方面大大地降低了处理的实验数据,提高了采样效率,保证了高效重构监测对象。虽然本文的方法在视频数据处理方面取得了一定成效,但还是有一些不可忽视的课题需要进一步探讨:1)能否存在一个最优的观测矩阵,来适用稳定的重构算法;2)怎样构造一个算法,使之稳定、计算简单、对观测次数限制较少地恢复可压缩信号。

摘要:近年来水文视频监控成为探测水文信息的一种主要传感形式,但采集的大量视频图像数据成为无线传输的难题。本文根据水文视频图像的特点,提出利用压缩传感进行视频图像的采集和传输。首先进行单路压缩传感的研究,在视频采集端将视频帧分块处理,利用自适应压缩采样方法,大大地减少了测量数据,提高了采样效率。在进行宽带传输时,提出了无线网络的压缩传感频谱感知方法,提高了正确检测频谱的概率、降低噪声和采样点随机性的影响、避免了隐藏终端问题。通过具体实验表明,传统采样数据量远远大于利用单路压缩传感获得的数据量,采样效率提高的同时,重构图像的效果更好。

关键词:压缩传感,无线传感器网络,水文无线视频监控,频谱分配

参考文献

[1]Donoho D L.Compressed sensing[J].IEEE Trans Inform Theory2006(52):1289-1306.

[2]Candès E J.Compressive sampling[C]//Proceedings of the Inter national Congress of Mathematicians.Madrid,Spain:[s.n.],2006:1433-1452.

[3]MACRO D.MARK D.Single-pixel imaging via compressive sampling 2008(2).

应用数据库营销策略优化客户获取 篇5

为什么这么多的营销策划人员都热衷于客户获取营销呢?下面的这些原因可以用来解释这一点:

客户获取是增加客户市场份额最直接有效的方式之一。市场份额是非常重要的市场营销业绩考核指标,许多企业都将每年营销部门的重点设定在市场份额的保持和增加上,在电信业、消费电子、保险等等许多的行业都是如此。企业为此往往也定义了许多必须达到的业绩考核指标,这些指标往往是以增加客户市场份额为导向的,在这样的导向下,客户获取营销就成了营销策划人员最直接的考核指标。

客户获取比客户维系更容易测量营销的结果。客户获取营销只需要在营销活动结束后计算一下获取了多少客户,卖掉了多少产品就可以得到结果了。对于客户维系营销,计算营销活动的收益就不那么容易了,不仅需要计算维系营销活动的直接收益,还要跟踪客户的持续消费行为,测算营销带来的未来收益,这对于很多营销策划人员来说,并不一件容易完成的任务。也有不少营销策划人员认为,现有的客户本来就在一直购买,通过取悦现有客户进行维系营销的方式只是在浪费营销基金和资源。而来自客户市场的压力是实实在在,获取更多的新用户,促销新产品加快新产品的客户市场渗透期是最直接、最容易测量的营销选择。

客户获取营销比客户维系更容易实施。在对于客户维系难以把握的情况下,客户获取营销就成了最容易实施的活动。最近研究了几家跨国公司在国内市场的营销活动,绝大多数都是新用户发展和新产品推广活动,增加客户市场份额和新产品的市场渗透率是最多见的营销活动目标。增加客户获取有很多可用的方法,利用各种传统的大众营销方法和渠道来引吸客户,如果一种营销方式不太理想,可以再尝试换另一种方式,直到客户获取营销的效果体现出来。而客户维系营销就要难实施的多,首要从现有客户中识别维系营销的目标客户就是一个不小的挑战,不仅仅需要记录和识别现有客户的消费历史,还要测算这些客户的生命周期价值;其次,如果想要维系这些客户,还需要识别目标客户群的个体偏好,来策划相应的产品服务策略和客户沟通策略;更次,还需要建立测试和控制组来跟踪维系营销的效果。而真正掌握这些客户维系营销技术的营销策划人员并不太多。

当然,还一个很重要的原因是营销客户数据库。客户维系营销一定需要企业能够建立和维护一个营销客户数据库后才能更好的实施,而客户获取营销则并不一定需要企业有这样的数据库,有很多不依靠营销客户数据库的大众营销方式可以采用,企业也可以通过合作在市场上寻找到相应的潜在客户名单。另一个重要的原因是,营销策划人员往往对数据库营销应用缺乏能力和信心,在这种情况下,侧重于客户获取营销是一个安全的选择,很多传统的大众营销策略和媒介沟通方式可以选择,营销策划人员在缺乏数据库营销策略指导时并没有动力来碰相对复杂的客户维系营销,

正是因为上述的这些原因,市场营销主管将更多的精力放到了客户获取营销上。这一点看起来并不奇怪,但是在竞争越来越激烈的市场环境中,尤其是在寻求高价值客户异常竞争激烈的消费产品市场,采用传统大众营销方式常常已经不能达到预期的营销目标,对于高价值客户的营销和产品渗透是困扰每个营销策划人员的难题。

客户获取营销应当吸引哪些客户?他们能够为企业带来长期价值吗?如何能够比竞争对手更高效的策划和实施客户获取营销,以达到更高的客户获取营销投资回报率呢?有没有更好的改进客户获取营销呢方法呢?

本文从数据库营销的一些基本应用来浅析可以改进的方法。

一、避免获取错误的客户

很多营销策划人员仅仅关注营销活动在促销期间内获取了多少新用户,卖出了多少新产品,而很少关注这些客户中有多少是真正的目标客户,有多少是错误的客户。

有时,企业设计的一些优惠促销活动,本意是想吸引目标客户群,但经常没有到达真正的目标客户之前,就被那些对价格和优惠敏感的人一抢而空。经常能够看到一些商户在发各式各样的会员卡,这样的会员卡往往没有什么门槛,往往在初期有优惠的时候,会吸引大量的客户加入,而当优惠期过后,能够持续消费的客户门可罗雀,商家不得已,只得不断的通过各种各样的活动来吸引新客户,接下来还是客户的大量流失。究其原因,在以价格为促销活动主要诉求的营销实践中,对价格敏感的客户会占有相当大的比例,而这类客户往往是交易型客户,他们是奔着产品促销的优惠来的,他们的重复购买率相对忠诚的客户会很低。除非你的企业能够一直持续不断的给这类客户以刺激,才能保持他们的连续购买行为,而这样只是会浪费大量的市场营销预算在非目标客户身上,他们并不能为企业带来长期的利润。

以信用卡营销为例,近年来国内银行信用卡的发卡大战愈潜愈烈,促销手段层出不穷,通过开卡有礼、豁免年费、送保险、现金回馈、消费积分、免息购物等各种各样的营销活动来吸引信用卡新用户。有的银行在发展用户时声称,只要成功办理信用卡后,在规定日期内刷卡进行第一次消费,都可以获得价值百元甚至数百元的奖励。甚至通过媒体宣传“花明天的钱圆今日的梦”的适度信贷导向。但信用卡的新用户获取成本较高,客户盈利周期也较长,往往需要数年才能盈利,过度优惠的促销会将大批非目标客户吸引进来,无形中增加客户管理和客户服务的成本。同时,如果没有设计好完善的后续维系营销策略,从长期来看,对于高价值客户的维系和发展也是一个非常严峻的问题。

地理模拟系统的空间数据获取 篇6

数据可分为第一手的原始数据和处理过的数据,也可以分为数字化的数据和非数字化的数据(表1)。数据是GIS的基础和核心,通常情况下,一个GIS项目的资金分配为硬件、软件、数据各占10%、20%、70%。

一般需要采集的GIS空间数据有以下几种:

a.各类统计调查数据;

b.野外调查测量数据,包括调查记录文本、GPS、全站仪等仪器所测得的数字化数据资料;

c.已有地图(专题图)数字化;

d.遥感数字图像;

e.修改或转换已有数据库资料。

GIS数据采集工作的主要任务有将现有的地图、外业观测成果、航空像片、遥感图片数据、文本资料等转换成GIS可以识别和处理的数字形式;数据添加到数据库之前进行验证、修改、编辑等处理,保证数据在内容和逻辑上的一致性;不同的数据来源需要进行数据转换和处理,便于GIS的分析和处理工作的进行,数据转换需要使用到不同的软件、设备和方法,数据处理包括生成拓扑关系、几何纠正、图像镶嵌和裁剪等。

图像数据是GIS空间数据的重要组成部分,图像数据的收集实际上就是数字化的过程。一般有扫描数字化和手扶跟踪数字化两种数字化方法。扫描数字化是使用扫描仪直接把图形(地形图、专题图等)和图像(航空像片、卫星像片等)扫描输入到计算机中,以像元信息进行存储表示,然后采用矢量化软件从栅格图像上自动或半自动生成矢量数据;手扶跟踪数字化是使用手扶跟踪数字化仪,将已有图件作为底图,对某些需要的信息进行跟踪数字化。一般来讲,扫描数字化因其输入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎,且随着计算机硬件的发展,计算机运算速度、存储容量的提高,使得扫描输入已成为图形数据输入的主要方法。

属性数据是记录和描述空间实体对象特征的数据。属性数据一般包括名称、等级、数量、代码等多种形式。属性数据有时单独存储在空间数据库中,形成专门的属性数据文件,有时则直接记录在空间数据文件中。往往需对属性数据进行编码处理,将各种属性数据变为计算机能有效存储和处理的形式。属性数据的编码一般需要基于以下三个原则:编码的系统性和科学性,编码方式必须满足科学的分类方法,以体现该类属性本身的自然性,容易识别和区分;编码的一致性,编码必须前后一致,所定义的专业属于必须是唯一的;编码的标准化和通用性,为便于信息交流和共享,所建立的编码系统必须尽可能的遵循标准方式。

2 利用各种GIS空间分析方法获取进一步数据

GIS数据库存储基础的空间数据,在具体的应用中往需要利用各种GIS空间分析功能来获取进一步的空间数据。GIS空间分析的一般方法下面介绍。

2.1 空间查询和检索

用来查询、检索和定位空间对象,包括图形数据的查询和属性数据的查询以及空间关系的查询几种方式,空间查询和检索是GIS的基本功能之一,也是进行其他空间分析的基础操作。

2.2 空间量算

空间量算主要是用一些简单的量测值来初步描述复杂的地理实体和地理现象,这些量测值包括点、线、面等空间实体对象的重心、长度、面积、体积、距离和形状等指标。

2.3 空间插值

空间插值用于将离散的测量数据值,按照某种数学关系转换为连续变化的数学曲面,以便与空间实体的实际分布模式进行比较,并可以推求出未知点和未知区域的数据值。

2.4 叠置分析

叠置分析是GIS空间分析中重要的分析方法之一。GIS中使用分层方式来管理数据文件,叠置分析是将同一研究区的多个数据层集合为一个整体,对多个数据层进行交、并、差等逻辑运算,得到不同层空间数据的空间关系。叠置分析又包括矢量数据的叠置分析和栅格数据的叠置分析两种。

2.5 缓冲区分析

缓冲区分析是GIS空间分析中使用较多的分析方法之一。缓冲区分析就是对一个、一组或一类空间对象按照某一个缓冲距离建立其缓冲区多边形的过程,然后将原始图层与缓冲区图层相叠加,进而分析两个图层上空间对象的关系。从数学的角度来说,缓冲区就是空间对象的邻域,邻域的大小由邻域半径(即前面所说的缓冲距离)来确定。缓冲区分析与叠置分析不同,前者包括了缓冲区图层的建立和叠加分析,而后者只是对现有的多个数据层进行叠加分析,并不自己生成新的图层参与分析。

3 利用GIS获取城市模拟的输入数据

城市模拟所需要的特定信息一般是通过执行GIS空间分析功能来获取的。通常用已有的GIS图层直接作为城市模拟的输入,但有时候在进行城市模拟时为了提取模型所需的特定信息,就需要执行地图操作。城市是一个非常复杂的巨系统,因此,城市模拟通常要涉及许多空间变量。空间分析对于量化这些空间变量来说是至关重要的。最简单和传统的GIS空间分析是叠置分析。叠置分析的概念出自于传统的地图比较。在过去,因为每一幅地图包含的信息都不同,地理学家需要在不同的图层上进行地图比较。在GIS数据库中,空间变量是作为层存储的。

基于数字化地图的叠置分析比基于纸质地图的人工分析在实际应用中有极大的优势。GIS叠置分析能方便找到在多个图层上满足一定条件的位置,在设施选址的有许多十分成功的例子。例如,可利用GIS叠置分析查找放置放射性物质的适合位置。用于分析的地理要素包括人口、通达性和保护区等图层。GIS叠置分析在层与层之间的操作非常方便。GIS层通常包含点、线、面要素。通过对这些要素执行相交和合并操作,可以建立新的要素和新的空间关系。

缓冲区分析是另一种提取空间信息的普遍技术,这些空间信息与距离和邻近度(Proximity)有关。邻近度(Proximity)是重要的空间决策因子。例如,在环境敏感源(饮用水)附近区域不适合建造污染工业。可利用GIS的缓冲区分析功能,在环境敏感源处建立一个缓冲区,代表这是问题区域。在大多数情况下,离源点越远,影响会逐渐变小。例如,当位置远离城市中心的时候,城市的吸引力逐渐变小。可用一个负的指数函数用于表达这种影响,例如以下的方程:

在栅格的数据结构环境下,GIS包提供了多种基本的算法运算功能,从而使得计算这种随距离而衰减的影响度变得十分容易。地图操作允许通过整合不同数据源的地图得到新的信息。大多数GIS包有下列功能:

a.算术运算;

b.几何量算(例如计算点、线和面的距离);

c.叠置分析和缓冲区分析;

d.统计分析(例如执行包括各种空间变量的回归分析在内的一系列统计操作)。

三维激光扫描地形数据获取处理 篇7

利用三维激光扫描技术获取的点云数据建立数字地面模型很关键的一步就是要把地面点和非地面点区分开来, 从而剔除非地面点获取“纯净”的地面点, 这个过程称之为点云滤波。现如今, 许多文献都对点云滤波做出了研究。主要有以下几类:以形态学为基础的滤波方法[1—4], 以拟合为基础的滤波方法[5], 以坡度为基础的滤波方法[6—10], 以扫描线为基础的滤波方法[11—13]。每种方法都有其局限性, 如以形态学为基础的滤波方法滤波结果过分依赖移动窗口大小的选择, 对高程变化较大的区域滤波效果不好;以坡度为基础的滤波方法滤波结果则过度依赖坡度阈值的选择, 而且对每个点的K临近进行查询也相当耗时, 计算量过大。

本文所提出的方法是基于高程统计来进行点云分类。首先对点云高程进行离散化, 然后按照最大类间方差法 (OSTU) 获取最佳分割阈值, 继而对点云数据进行阈值分割, 从而获得地面点云数据。

1点云高程离散化

由点云数据可获取其最大高程值Hmax以及最小高程值Hmin, 通过设定离散化等级L, 可以得到其离散化高程宽度dh,

如果某一点的高程为Hi, 则该点所在离散化高程等级为Li,

然后对点云数据按照离散化等级依次进行统计, 便可以得到点云的高程统计直方图。获取高程统计直方图的目的在于判断是否要进行多阈值分割。通过高程统计直方图可以清楚地看到点云有几类不同高度的目标, 如果目标多于两类则需要进行多阈值逐步分割。

2单阈值分割法

通过观察高程统计直方图, 如果不同高度的目标个数不多于两个, 便可以利用单阈值分割法将点云分为两类。进行单阈值分割时可采用最大类间方差法 (OTSU) 。

最大类间方差法是1979年由日本学者大津 (Nobuyuki Otsu) 提出的, 它是在判决分析最小二乘原理的基础上进一步推导得出的自动选择阈值的二值化方法[14], 所以也简称为大津法 (OTSU) 。这种方法主要用于图像分割, 它是根据图像灰度特性, 将图像分为目标和背景两类。两类的类间方差越大, 说明类的差别越大, 错分的概率也就越小。因此, 当两类的类间方差最大时, 错分的概率也就最小, 此时的分割阈值也就是最佳分割阈值。借助最大类间分割法在图像分割中的思想, 进行点云分割便可以这样做:

设定一阈值将点云分为两类, 然后不断调整, 当两类点云的方差最大时, 此时的阈值就作为分割处理的最佳阈值。其数学表述如下:

设定阈值K, 将点云L分为两类L1、L2。分别计算L1类的概率ω1和均值μ1以及L2类的概率ω2和均值μ2, 则两类点云的数学期望为:

两类的类间方差为:

极大化σ2 (k) 的过程就是自动确定阈值的过程, 最佳阈值Kh为

具体实现步骤如下:

步骤一, 初始化分类阈值K (K为点云离散化等级第Li级所对应的高程值) 。

步骤二, 阈值K将离散化后的点云分为两类, 设为类1和类2。按照式 (4) 计算此时类1与类2间的类间方差。

步骤三, 遍历点云离散化等级Li (0≤Li≤Lmax) , 依次赋予阈值, 分别计算该阈值下的类间方差。取σ2 (K) 最大时的阈值K作为整个高程直方图的最佳分割阈值。

此时, 便可以将小于阈值K的点归类为地面点, 大于阈值K的点归类为非地面点, 直接将非地面点进行删除即可。

3多阈值分割法

如果高程统计直方图表现出多峰现象, 即不同高度的目标有好几个, 此时如果继续用单阈值分割法就会造成误判。点云的多阈值分割法可以看成是单阈值分割法的推广, 它是一个迭代的过程, 对点云逐步进行分割。其流程图如图1所示。

此流程算法的关键之处在于直方图多峰现象的判断。所谓的多峰现象, 也就是直方图中有两个以上的独立峰。经试验验证可采用下列三组条件进行独立峰的判断:

1) 独立峰要具有一定的宽度, 即相邻两波谷的间距≥l。

2) 独立峰要具有一定的面积, 即相邻两波谷和波峰所围成图形的面积≥s。

3) 独立峰要具有一定的峰谷比, 即波峰与其相邻两波谷的比值≥δ。

三阈值l、s、δ根据采集数据的实际情况进行设定, 可多次设定进行对比, 以达到判断多峰现象最佳的目的。

这是个逐步分割的过程, 先分割出高程最低的点群并从原始点云中剔除, 再在剩余点云中再次迭代分割出高程次低的点群, 如此循环便可将原始点云按不同的阈值分割出不同的点群。

4地面点连通规则

原始点云经过多阈值分割后会分成不同层的点群, 一般默认为最下层也就是高程集体表现最低的点群为地面点。除此之外, 地面点还应包括其他各层 (尤其是与最下层相邻的层) 点群中由于地面起伏而凸起的点。

将分割后的点云分层进行观察, 可以发现每层的点群都会表现出连通区域或大或小的“点云块儿”。这些块儿状点云主要是由于建筑物、树木以及地面起伏造成的。显然, 应该剔除由于建筑物或者树木造成的块儿状点云, 保留由于地面起伏造成的块儿状点云。如何进行区分, 要遵循以下规则:

1) 连通区域较小且分散比较开的块儿状点云直接进行剔除, 此类块儿状点云是由于一般建筑物或者树木造成的。

2) 连通区域较大的块儿状点云可能由两种情况造成, 一种是大面积的建筑物 (比如房顶) , 另一种则是地面起伏。前一种情况要剔除, 后一种情况要保留。如何进行区分, 主要依赖于这些块儿状点云与其周边点云高程的落差情况。如果块儿状点云与其周边点云高差相差较大, 则说明该块儿状点云是由于大面积建筑物造成的应该剔除。反之, 则应该保留。由图2和图3可以看出其区别。

5非地面点滤波处理

按照上述规则分别对各层数据进行分析对比, 剔除非地面点, 将剩余点进行连通即可得到想要的地面点云。但是此时的点云数据还存在误判性, 比如一些低矮的植物, 由于其分层后的点群与其周边其他点的高程差也不大, 所以很容易将此种类型的点云误分到地面点中去。为减小这种误判性, 可采用趋势面拟合法对连通后的点云进行非地面点滤波处理。

趋势面拟合法的基本思想是利用底层已确定的点云数据建立二次曲面, 然后对其余各层中连通的地面点进行高程拟合, 最后比较真实值与拟合值的高程差, 将高程差超过阈值的点进行删除。

一般地设定二次曲面函数为:

式 (6) 中, x、y、z为点的三维坐标, a0、a1、a2、a3、a4、a5为待求曲面函数的系数。

首先, 通过n个已知的地面点 (n≥6) 对式 (6) 建立误差方程, 然后按照最小二乘原理求解系数ai (i=0, 1, 2, 3, 4, 5) [15], 最后利用求解出来的二次曲面分别对其余各层的地面点进行高程拟合, 并计算拟合值与真实值zj的差值Δ, 若Δ大于阈值ε则将该点删除掉, 否则保留。

6试验分析

本次试验所采用的仪器是奥地利Riegl公司生产的VZ—400型三维激光扫描仪, 其仪器参数如表1所示。

本次试验区域为某教学楼前的一片空地, 为便于分析研究选取其中一块儿具有代表性的区域 (约为20 m×10 m) , 如图4、图5中。

从图中可以清楚地看到地面上除了高低不一的独立树还有一些土坎 (图中点云中有些空白区域正是由于土坎对扫描脉冲的遮挡所造成的) , 如前文所述独立树是要剔除的而土坎则是要保留的。

具体实现步骤如下:

1) 对点云高程进行离散化, 统计高程直方图。

此区域扫描的点云数量为10 091Table 2 Threshold segmentation个点, 高程范围是22.831~29.213m。将离散化等级设置为500级, 其高程离散化直方图如图6所示。

2) 对离散化的点云进行多阈值OTSU分割, 计算得出的最佳分割阈值如表2所示。

按照分割阈值对点云进行分层处理, 得到的结果如图7~图12所示。

3) 对除底层外其他各层的点云进行地面点连通判断。

底层点云默认为地面点, 第三层由于点云的连通区域较小且该层平均高程与底层点云相差较大故可直接删去。第二层点云虽然连通区域也不大但由于其极有可能包含地面起伏的点 (如土坎等) 故需单独进行判断。分别统计第二层点云以及该层周边点云 (这些点存在于第一层中) 的高程, 计算高差。设定阈值为1 m, 若高差超过1 m, 则视为非地面点, 否则保留为地面点。最后, 连通底层和第二层中的地面点, 结果如图13、图14所示。

4) 对上步得到的地面点利用趋势面拟合法再次进行非地面点滤波, 可得到最终的地面点云如图15、图16所示。

综上可得每步操作后的点云数据对比如表3所示。

7结论

网络数据获取 篇8

下面通过实例来介绍如何在JavaScript中调用WebService函数, 并根据返回结果修改控件属性。开发工具为Visual Studio 2008。

在Visual Studio中新建“TestJSWebService”项目。首先编写WebService类, 声明WebService方法。设置[System.Web.Script.Services.ScriptService]属性, 其中“GetData () ”方法接收一个名为sqlstr的参数, 返回JSON格式的字符串。

toJson () 函数将获得的DataTable对象转换成JSON格式的字符串, 包括返回数据记录的总数及所有记录。格式如下:{"count":记录总数, "rows":[{"名称":"值1"}, {"名称":"值2"}]}, 在JavaScript中可以使用eval () 函数对返回的JSON字符串进行处理。

经过以上工作, 完成了WebService类的编写工作, 可以通过“在浏览器中查看”进行测试。执行效果如图1所示。

完成WebService类的编写后, 再编写aspx页面部分。首先在默认的“Default.aspx”页面上添加一个ScriptManager服务器端控件, 并添加对上述服务的引用。

为了区别于使用服务器端控件, 加入一个HTML控件,

接下来编写JavaScript代码, 调用WebService服务, 并根据返回的结果修改其选项值。在客户端JavaScript中调用WebService时应按照如下格式:

其中“callbackFunction”为回调函数名称, 该回调函数将在服务器端异步调用成功返回后由ASP.NET AJAX异步通信层自动调用。回调函数的result参数代表了本次异步调用的返回结果, 即WebService方法的返回值。

页面JavaScript代码如下:

设置body的onload="getdata () ;", 运行程序, 效果如图2所示。

网络数据获取 篇9

一、改进器材,科学获取数据

在学生的探究活动中,有许多因素会影响学生实验数据的获得,如实验仪器的不精密、实验材料的不典型以及周围环境的影响等,都会造成学生获取的实验数据不精确。在此数据基础上的解释与论证就会偏离预定目标,与建构核心概念背道而驰。

1. 改进仪器,避免估值影响数据

小学科学中有很多测量是需要学生进行估计的,如量筒测量液体的体积、玻棒式温度计测量液体的温度、弹簧测力计测量力的大小等,学生在利用这些仪器进行测量、记录数据时会有估上估下的误差值,单独一个数据或两个数据对比明显的情况下,不会受影响。但如果是一组连续的数据且数据变化不大的情况下,估值的上与下就会对数据的分析与解释造成直接的影响。

“热起来了”一课中,教材安排的是采用玻棒式温度计测量一本字典的温度,它只能精确到1摄氏度,每一小格之间的0.1至0.9摄氏度的值是需要学生来估计的,这个值的大小有人为的主观因素,甚至同一位学生在前后几次的估值中都有差异,这就使得个别小组在记录的数据中出现了“裹了衣服后温度升高了零点几摄氏度”的情况,这为后面基于数据的解释与推理带来了麻烦。

温度能否不用估计就直接显示出来呢?基于本课核心概念建构的需要,我们对仪器进行了升级,用数字温度计代替玻棒式温度计,解决了学生人为估值影响数据的问题,也符合新科技产品走进科学课堂的理念。使用数字温度计优势明显:一是灵敏度提高,节省了温度变化的等待时间;二是误差更小,数据更准确;三是温度不需要估算,消除了人为估值对数据的影响,更便于学生在excel表格中直接输入与呈现,为后续的论证环节做好了铺垫。

2. 改进材料,防止他因干扰数据

受年龄特点的影响,小学生在探究活动中往往对探究材料特别感兴趣,领到材料后,经常会不自觉地把弄一些材料,如对材料进行“亲密接触”,而这些材料又对“接触”比较敏感的话,就会对实验数据产生干扰。

“热起来了”一课中部分小组在领到温度计以后不是先记录起始温度,而是用手握住了温度计下端的玻璃泡,致使温度升高,这时再记录起始温度,这样得到的数据显然不科学。特别是在测量几分钟内的温度变化过程中,有些同学把温度计取出来放进去反复操作,致使数据上下波动。这就导致了好多组数据出现温度升高的现象,也成了这节课上数据难处理的一大症结。

除了在实验前对学生的操作进行强调以外,可以改进选用的材料。在本课中,可用一瓶接近人体温度的温水来模拟身体,代替教材中安排的字典。数字温度计一开始就插入瓶中,学生领到材料后,主观上不容易接触到温度计敏感的下部。由此,困扰教师的干扰数据问题迎刃而解。

二、借助图表,直观呈现数据

在学生获取实验数据之后,把数据呈现出来以供解释与论证尤为重要。常见的方式有三:一是学生根据记录表读、报数据;二是小组成员把记录表在实物投影仪上边展示边宣读;三是各组把数据填写在教师准备的汇总表中。显然,第一种方式失去了数据的价值,第二种方式比较常见,但缺乏全班整体数据的横向比较;第三种方式相对比较理想,但需要教师准备一张大的汇总表,且不利于数据的直观处理。在数字化时代,我们完全可以利用excel等软件以数据图表的形式呈现,同时可以对数据进行直观处理。

1. 借助柱形图呈现数据整体

Excel中有个数据透视图功能,经过简单的设置就可以将数据汇总并以我们需要的图表形式直观呈现。“热起来了”一课采用柱形图的方式直观形象地呈现全班所有小组的实验数据,效果比较明显。数据的输入、呈现与学生的探究活动同步,在学生用数字温度计测量温度的过程中,每获得一个数据,各组就可以指定一名同学到台上电脑图表中输入数据,实时呈现在大屏幕上。有了全班同学的无形监督,避免了个别同学对数据的任意篡改。同时,学生在测量温度的间隙也不再无事可干,可通过大屏幕随时观察各组同学测得的实时数据,初步进行分析与思考。全班同学实验完毕,数据也同时输入完毕,一张全班各组数据的柱形图便呈现在大家面前。(图1)

此图充分利用了excel数据处理模块,直观形象地呈现了12组学生的实验数据,使学生面对全班大量的数据不再眼花缭乱,通过图形与具体数据的结合,有助于学生对数据的观察与分析、推理与论证。

2. 借助折线图呈现数据趋势

有时候我们并非需要对所有数据进行呈现与对比分析,而是显现数据变化的趋势。这时,我们就可以借助折线图来达成目标。“热起来了”一课中学生在对数据进行整体分析后发现,衣服不能给身体增加热量,同时发现:裹了衣服温度反而还在降低,那衣服还有作用吗?而这个问题教师有预设,在学生探究活动中事先在其中一个小组增加了一个对比实验,这时就可以把这个小组的对比数据以折线图(图2)呈现,使学生对裹了衣服和没裹衣服的温度变化趋势一目了然,也使学生对保温的概念有一个新的认识:保温并不是能一直保持温度不降,而是减缓热量的散失,使温度降低的速度变慢。

三、利用数据,深入剖析论证

科学获取数据并借助图表直观呈现,其目的是帮助学生建立自己的观点,用事实说话、用证据解释,培养实证精神。因此,在交流研讨环节,教师要组织学生充分利用数据来说话、来解释,使研讨交流成为学生对话的平台,成为学生推理论证的契机,在个体到集体的论证中,思维得到发展,概念得以完善与提升。

1. 自我分析,个体论证

个体论证是本人或本组成员对自己或本组的实验数据分析与解释、交流与分享的过程,是学生基于自己的观点寻求证据进而完善自己观点的过程,有助于学生从证据上升到解释,促进思维的发展。

“热起来了”一课中,全班学生在探究活动前就已经借助生活经验与感受建立了两种不同的观点:“衣服能给身体增加热量”和“衣服不能给身体增加热量”。但这两种观点都建立在学生主观感受的基础上,所以都成立,谁也说服不了谁。于是教师应引导学生要用事实来说话、用证据来解释。“事实”和“证据”就在学生实验中观察到的数据里。因此,研讨交流的首要任务就是要组织学生开展个体论证,要让学生观察图1中自己小组的数据,对起始温度、1分钟后的温度、2分钟后的温度、3分钟后的温度等几个数据作纵向的观察与分析,用数据来佐证自己的观点。在观察分析中,有些小组发现自己数据中的四个温度没有一个上升,说明衣服不能给身体增加热量,与当初的观点一致;而起初持不同观点的小组也发现自己的四个数据没有上升,与当初的观点不一致,从而产生了认知冲突。在这里,是坚持自己原先的观点,还是尊重事实,尊重数据,体现了科学态度与精神的渗透与培养。

2. 全班互动,集体论证

在个体论证的基础上,教师组织学生开展集体论证,让全班同学对其他小组的数据进行比较分析、质疑批驳或解释评价,通过不同观点的相互“交锋”,产生思维碰撞,在实现从个体表征到集体建构的过程中理解科学概念和科学本质。

“热起来了”一课,教师一方面要求学生对自己的数据进行分析论证,另一方面则要求他们对其他小组的实验数据进行观察。这时,有些同学就会关注一些特殊的数据,并提出自己的分析、质疑与推理。在此基础上,教师还应引导学生从全班的角度观察数据,从上升、下降或者基本一致几个方面分析数据。学生很快发现,图1中没有一个小组的温度上升,说明了衣服不能增加热量。同时还发现绝大部分小组数据有下降的现象,这在学生的意料之外,更促使学生去进一步分析原因,去联想生活实际来思考。在相互的交流论证中,知道了温水在不断地向外界散发热量,而衣服只是起到了保温的作用,使温度下降的速度减慢。这样,学生的汇报交流就不再是数据的简单呈现与结果的主观臆断,而是一个不断对话、交流的理性过程,更注重概念建构与思维发展的有效融合。

网络数据获取 篇10

关键词:网格服务,遥感图像头文件,元数据,自动提取,WSRF

近年来,遥感技术发展迅速,特别是随着卫星技术及航空遥感的发展和人们需求的提高,以及全球信息化的加快,遥感作为一种信息快速获取的手段就显得尤为突出,遥感数据也已经在测绘、气象、国土资源勘察、灾害监测与环境保护、国防、能源、交通、工程等诸多学科和领域得到了广泛的应用。遥感图像元数据体现了遥感图像的基本特征信息,也是检索遥感图像的重要依据。这些元数据信息通常存放在遥感图像的头文件或图像文件中,如:轨道号、数据获取时间、传感器类型、图像范围、处理级别、图像行列数、投影方式、图像中心及四角经纬度等。因此如何获取遥感图像元数据信息就成为遥感图像信息集成中的关键。本文正是针对遥感图像元数据提取问题设计了一套解决方案。事实上,这些参数名称及参数值大多以文本形式存在,完全可以由用户自己编写算法来实现元数据的读取。因此,该文提出了基于影像头文件的自动提取遥感图像元数据算法,并将这些算法及代码封装成网格服务,通过“热插拨”的方式集成到系统(平台)中,从而提高系统(平台)对于新的遥感图像类型的自学习能力。

1 相关工作

随着航天与航空遥感技术的发展,卫星遥感数据正以惊人的速度增长,如何操纵这些海量的卫星遥感数据,使得遥感数据为各个领域的人们提供遥感信息服务,这必然给遥感数据的共享带来严峻的挑战。当前遥感的应用领域已经扩展到国土资源、气象、环境、水利、矿产、电力等各个行业中。而国内外遥感数据集成的研究工作大多处于初级阶段,即采用物理集中的方式实现遥感图像数据的集成。人们在网格服务、遥感图像处理等与本课题相关的方面做了大量工作。

1.1 遥感图像处理方面

遥感图像处理就是利用计算机通过数字处理的方法来增强和提取遥感图像中的专业信息。由于遥感图像的数据量巨大且处理复杂,现有的研究工作集中在利用网格技术实现海量遥感图像数据的快速处理。国防科技大学完成了图像处理算法的网格化和服务化工作,基本完成了应用于网格环境的遥感图像处理并行函数库的建设和集成工作。华中科技大学开发的图像处理网格应用平台主要研究图像处理复杂任务的划分、分解和作业调度,图像处理应用资源及服务的管理、配置和监视等。

1.2 网格服务方面

2002年6月,Globus联盟首次在全球网格论坛(GCF)上提出了开放式网格服务体系结构(OGSA)的理念[1]。不久,GGF及时推出了开放网格服务基础架构(OGSI)草案。OGSI规范提出了网格服务的概念,并针对网格服务定义了一套标准化的接口。OGSA-DAI经过配置后可以访问关系型数据库、XML数据库、文本文件等,是一种用于实现分布和异构数据集成的中间件,在很多项目中得到了较好的应用。

现有的图像参数提取方法是使用专门的图像处理软件(如ENVI、ERMapper和PCI等)来读取并显示图像的参数信息,再通过人工的方式写入到数据库中。这样做不仅耗时耗力,而且有可能造成判读误差。遥感图像处理的数据量越来越大,同时对处理的精度及速度要求也越来越严格,很大程度上给图像处理技术带来了新的挑战。遥感影像数据通常分布在地理区域不同的组织内,传统的遥感图像处理模型无法将各种自治、分布和异构的数据资源在逻辑上整合在一起,使得大量宝贵的遥感数据资源无法得到及时有效的处理、分析与存储,成为“信息孤岛”。

对于普通的数据源来说,OGSA-DAI的功能是足够用的,尽管其配置比较麻烦。然而,不同遥感图像元数据的数据模型、数据模式和数据语义差别非常大,无法通过简单的参数配置实现图像元数据的集成。而且OGSI规范过分强调网格服务和Web服务的差别,没有对资源和服务进行区分[4],导致了两者不能更好地融合在一起。为了解决OGSI和Web服务之间存在的矛盾,Globus联盟和IBM推出了Web服务资源框架(WSRF)。它在重构开放网格体系结构(OGSA)的基础上,将网格与Web服务技术相结合,更好地利用了现有的XML模式,同时也利用了新的Web服务标准如Web资源寻址。尤其是WSRF特有的资源模型(WS-Resource),更合理地将Web服务和有状态资源联系在一起[2]。

该研究正试图从以上两个方面进行改进:一方面是针对不同类型遥感图像的特征,结合图像处理算法的特点进行算法上的改进。这种方法从遥感元数据获取的原理出发,对数据提取算法进行进一步的优化,在单机处理的情况下,以达到遥感图像快速化、精确化的处理要求。另一方面,利用网格[3]这个把整个网络整合成一台巨大超级计算机的环境,采用WSRF标准将元数据提取这个计算资源封装成一个WS-Resource结构的网格服务。它建立在Web服务之上,通过Web服务发布系统发布,具有Web服务的基本功能,屏蔽了资源的复杂性和异构性,而且还可以利用资源的状态属性保存会话的状态,并对外提供统一规范的访问接口,有效地解决网络化制造中资源标准化封装的难题。而目前已有的方案大多是普通的制造信息数据共享方式,无法达到以标准的资源服务形式屏蔽资源内部的实现方法和机制,难以实现资源的透明化使用和管理的目的。

2 遥感图像元数据提取算法的设计

现有的很多影像数据包中含有头文件,记录了影像元数据一些重要的人工可读信息,如卫星、仪器、传感气、模式、条带号、行编号、西边界经度、东边界经度、北边界纬度、南边界纬度、中心日期时间等。因此,在使用遥感数据之前,首先要从图像文件的头部将这些参数信息提取出来。对于不同类型的卫星和传感器,参数在头文件中的存放格式不完全相同,如果依靠人工获取,不仅效率低而且精度差。其实,绝大多数头文件都是可读的便于程序判断的文本格式,每一个位置的字符都有严格的定义,程序判断起来反而更加准确方便。该文设计的自动提取影像头文件中遥感图像元数据算法正是针对这个需求来实现的。

由于不同卫星搭载不同的传感器或者同一颗卫星搭载不同的传感器后所拍摄的图像格式不尽相同,导致了遥感图像头文件格式多样化,例如LANDSAT-5卫星(美国陆地卫星五号)的TM传感器(专业制图仪)采用固定字节数的方式保存参数信息;LAND-SAT-7卫星的ETM+传感器采用类似于XML文件的树状结构保存参数信息;ENVISAT-1卫星的ASAR传感器采用每行一条记录的方式保存参数信息。而每种算法只能处理一类头文件,因此对于每一种卫星和传感器,有必要规定算法可以识别的图像头文件类型。不仅如此,有的遥感图像元数据信息并不是单独存储在头文件中,而是直接包含在图像文件的头部,这些卫星图像文件通常比较庞大,但我们需要的元数据信息却只占了其中很小一部分。例如ENVISAT-1卫星搭载ASAR传感器时的图像文件,总大小有60MB左右,其中元数据信息只有30KB。若将整个图像文件内容读入内存后再解析,势必造成冗余,降低算法的运行效率。所以在操作此类文件时仅需定位到我们关心的内容,读取图像元数据信息即可。

在设计算法之前我们还需要定义一个卫星参数的配置文件satellite.xml,以XML格式标准化元数据信息,在元数据提取过程中提供卫星原始参数名到标准参数名的映射。配置文件将每种卫星搭载不同传感器时所包含的参数详细信息(包括头文件中的原始参数名称、参数的中文定义、参数类型、参数大小、参数映射的标准字段名)一一列出。不是所有的参数都是我们所关心的,而且同一种参数在不同卫星的头文件中往往具有不同的原始名称,所以我们制定了一套元数据标准(参见表1),规定了我们关心的参数的中文名称、标准英文名称、定义及数据类型,以此屏蔽元数据之间的异构性。定义参数配置文件和标准元数据的好处在于当某颗卫星所拍摄的遥感影像参数有所变化时,我们只需要同步修改配置文件及元数据标准,而无需对元数据提取算法做任何改动,整个提取过程对用户来说也是透明的。对于遥感图像的元数据提取功能,我们不可能在设计时将所有遥感图像文件格式一网打尽,必须考虑到集成系统的可扩展性。用户可以自行定义新型图像文件的参数描述和处理代码,然后这些配置文件和源代码就可以通过“热插拔”的方式集成到系统中。配置文件satellite.xml格式示例如下:

设计算法时,首先根据用户选择的卫星、传感器种类判断需要获取头文件的字节数,将这些内容读入内存,然后分步定位,判断要获取的元数据信息。这时需要解析我们事先定义的卫星参数配置文件satellite.xml,获得用户所选卫星、传感器包含的参数信息。以Landsat_5卫星、TM传感器为例。先从配置文件中解析得某参数“NmberofRows”(图像列数),再回到头文件中,按行检索,定位到文本信息“OBJECT=NumberofRows”处,然后判断此参数是否有值,即在随后几行文本信息中查找“VALUE”,若存在,则“VALUE=”后的以非空格、非“=”号开始,以空格或者回车或者tab字符结束的字符串即为参数值。如“VALUE=22”就表示参数“NmberofRows”的值为“22”。确定参数值不为空后,还应该判断参数值的格式,因为有些参数值的表达式是“VALUE=(***,***,***,***)”,例如卫星影像的四角经、纬度。这种情况则要将参数值依次分离出来赋予不同的参数。由于每种影像的头文件存储格式不同,(可以通过查询其文件格式文档说明来了解具体的存储格式),因此需要针对不同格式的文件进行不同的判断,进而做一些特殊处理。如“ENVISAT”这颗卫星影像头文件中的参数“SENSING_START”和“SENSING_STOP”分别代表“景开始时间”和“景结束时间”,其参数值格式为“17-NOV-2002 10:44:33.017851”。这就需要我们将其中的月份信息“NOV”转换为“11”,提高元数据的可读性和实用性。卫星参数解析结束,相应的寻值过程也自动终止。同时以XML格式的字符串返回参数提取结果,其中每一节对应一个参数的详细信息(包括参数名、值、类型等),整个过程完全由程序严格控制。如果影像头文件类型无法通过程序识别,或者没有包含头文件,则需要人工判断,并手工输入该影像的元数据内容[4]。图像元数据提取流程图参见图1。

3 遥感图像元数据自动提取网格服务的实现

3.1 元数据自动提取网格服务的设计

为了提高系统的性能和可扩展性,实现异构分布环境下资源的共享和协同,必须有效地解决资源的统一描述与标准化封装问题。因此我们按照卫星和传感器的类型,将已有的图像参数提取算法分别设计为单独的计算资源,并进一步封装成基于WSRF,遵循约定接口标准,在本地应用服务器中部署,需要时被远程系统调用执行的网格服务。用户能够一致透明服务对外提供的统一接口,从而使分布、异构的计算资源在通信时具有共同的语言和即插即用的特性[2]。定义的元数据提取网格服务统一接口规范参见表2。

元数据提取网格服务的功能是根据卫星影像的参数配置文件,分析一幅图像的头文件内容,以获取一些重要的参数值。服务的输出参数为XML格式的字符串,每一节对应于一个参数的详细信息。

封装后的服务对外提供三类接口:Web服务访问接口,服务注册接口和数据源接入接口,如图2所示。

3.2 元数据自动提取网格服务的开发

该文是在Eclipse环境下利用GT4(Globus Toolkit)来进行元数据提取网格服务的开发。GT4网格服务的开发中,开员做的的工作就是对项目文件和配置步骤(反复进行编译、链接、部署等)进行修改。如果没有诸如Eclipse之类的集成开发环境,在反复重复开发的过程中,只能在很多工具(编辑器、命令行shell、文件管理器、编译工具、应用程序容器等)之间不断地来回切换。为此我们安装了GDT(Grid Development Tools)、Tomcat插件以及网格服务的部署容器ws-core,并进行适当的配置[6]。而Eclipse可在一个单一的项目抽象中管理所有这些开发活动,使得从编码到部署到调试都可以在Eclipse中实现,从而大幅度简化了网格服务的开发过程。

实现了元数据提取算法的接口后,就可以使用GT4中的部署工具将已封装好的服务部署到Globus容器WSRF中。容器启动后,服务请求者就可以通过统一的服务访问接口调用元数据提取网格服务。

4 实验测试

根据实际需要,我们将封装完好的遥感元数据自动提取网格服务“热插拨”集成到海洋遥感数据集成与共享平台中,以验证服务的可用性。

4.1 海洋遥感数据集成与共享平台

此平台能够并发访问各个网络节点的遥感数据并对数据访问结果进行处理和综合显示,为遥感数据提供一种灵活、动态和一致的共享机制。整个平台数据的获取完全依赖于元数据提取功能模块。我们将设计的元数据自动提取网格服务嵌入到平台中来实现这一功能。

4.2 结果分析

平台向用户提供以RPC方式调用的web服务统一接口。平台中元数据提取模块的具体工作流程如下:

平台首先要求用户将要进行数据提取的遥感图像文件上传到系统应用服务器上。在如图3所示的平台操作界面中,用户需要提供服务调用的接口参数,即选择图像对应的卫星、传感器、图像文件的本地路径以及服务器的目标路径并将文件上传。成功的将图像文件上传到服务器指定目录后,平台开始调用元数据提取网格服务,自动进行图像元数据的抽取,而不再需要用户添加任何手工操作,实现了真正意义上的参数自动提取。

由于网格服务不能返回自定义的复杂数据类型,而层次结构良好的XML可跨平台并易于在任何应用程序中读写数据,所以我们选择以XML格式字符串作为元数据提取服务的返回值,使得服务具有跨平台和可移植的优点。客户端只需解析此XML字符串,提取结点的图像元数据信息,并以Web界面形式直观的将数据值呈现给用户,如图4所示。整个元数据提取过程耗时仅3-5秒。与原系统中利用专业图像处理软件来进行图像数据的提取相比,降低了操作复杂度,提高了效率和数据精确度。

可以看到,在嵌入自动提取遥感数据功能模块后,系统整个元数据提取功能的实现变得更加简单、高效。由于我们事先已经将算法依照卫星和传感器的类型,分别设计为单独的计算资源,并进一步封装成基于WSRF,遵循约定接口标准,在本地应用服务器中部署,需要时被远程系统调用执行的网格服务,从而将计算资源由局部资源转变为可供整个网络应用共享的全局资源。网格服务对外提供的统一接口,使得用户能够以一致透明的方式对其进行访问,进而又赋予分布、异构的计算资源即插即用的特性。如此一来,封装完好的元数据提取计算资源可以随时嵌入系统,并与其后的数据归档工作很好的衔接起来,真正实现数据的自动化管理。结束了过去数据提取与录入脱节、手工输入数据的笨拙方式。用户在使用此计算资源时,只需提供统一的接口参数即可。实现了计算资源通过标准的接口和行为以服务的形式进行网络之间的信息交互与共享,这也正是我们采用网格服务的目的所在。

5 结束语

该文成功实现了在网格环境下自动提取遥感图像元数据,替代了过去人工获取图像元数据的传统工作模式,削减了工作复杂度的同时提高了准确性。并能够以封装完好的网格服务形式嵌入到任何系统中,为遥感数据资源的松耦合集成与按需共享奠定了基础。随着我国卫星遥感技术的发展,更多的遥感图像数据等待着我们去处理,该文提出的算法还只是针对一些特定格式的图像头文件奏效。因此,进一步探讨设计一种能兼容绝大多数头文件格式的遥感图像元数据提取算法是十分必要的。网格服务的开发中,工具是重要的手段。在合适的工具基础上,希望我们能进一步开发网格的应用程序,进而更好的理解网格的理论和其实际应用中的优势。

参考文献

[1]Foster I,Kesslman C,NICK J M.The Physiology of the Grid:An Open Grid Services Architecture for Distributed Systems Integration[EB/OL].http://www.globus.org/research/papers/ogsa.pdf.

[2]井浩,张璟,李军怀.基于WSRF的网络化制造资源Web服务封装的研究[J].计算机工程与应用,2007,43(15):22-25.

[3]Foster I.What is the Grid?A Three-point Checklist[C]//Proc.of the 8th IEEE International Symposium on High Performance DistributedComputing,1999.

[4]杜晓,晋佩东,郭大海,等.遥感影像快速入库和元数据提取系统的研究[J].国土资源遥感,2006,9(3):80-83.

[5]Gopi K,Liang Fang,Yi Huang,et al.Building web services for scientific grid applications[J].IBM Journal of Research&Development,2006,50(2/3):249-260.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【网络数据获取】相关文章:

网络数据安全论文04-17

网络数据库06-04

网络传输数据07-11

网络资源数据09-06

获取数据09-01

数据包获取08-07

电信网络诈骗大数据08-08

网络数据安全论文提纲11-15

网络数据挖掘论文05-12

复杂网络数据挖掘05-24

上一篇:跨区作业下一篇:吉林省教育社区