获取数据

2024-09-01

获取数据（精选十篇）

获取数据篇1

1利用纸质出版物获取统计数据

纸质出版物是获取统计数据最可靠、最重要的途径。常见的纸质出版物有年鉴、月报季报、行业报告等书刊资料。

1.1年鉴的概念及查找方法

年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书。它汇辑一年内的重要时事、文献和统计资料, 是按年度连续出版的工具书[2], 具有资料权威、反应及时、连续出版、功能齐全等特点。

年鉴大致可分为3类, 即综合性年鉴、地方性年鉴和专门性年鉴。综合性年鉴是涉及内容广泛的年鉴, 如《开国年鉴》、《中国统计年鉴》、《中国百科年鉴》等, 其中1950年出版的《开国年鉴》是新中国成立后问世的第一部综合性年鉴。地方性年鉴主要记述的是该行政区域内自然、政治、经济、文化、社会等方面的情况, 如《北京市统计年鉴》。专门性年鉴也叫行业年鉴, 如《中国图书馆学年鉴》。

该文以查找2010年北京市在岗职工平均工资为例, 介绍使用纸质年鉴获取统计数据的方法。首先登录国家图书馆联机公共目录查询系统, 在页面“正题名”处输入“中国统计年鉴”, 这时页面下方会呈现出有关中国统计年鉴的书目信息。由于年鉴具有记述上一年度统计资料的特点, 因此在书目信息中点选“中国统计年鉴2011”。借阅该年鉴后, 根据其章节内容, 查找相关数值。

1.2月报、季报的概念

月报、季报是按月或季度出版的统计刊物。如《海关统计月报》、《中国经济统计快报》、《中国经济景气月报》、《中国统计月报》、《中国人民银行统计季报》等。

1.3行业报告的概念

行业报告的内容一般是根据国家政府机构及专业市调组织的一些最新统计数据、调研数据, 并由行业资深人士的分析和研究, 做出的对当前行业、市场的分析与预测。如《全球金融稳定报告》、《世界儿童状况报告》、《欧洲竞争力报告》等。

2利用馆藏数据库资源获取统计数据

国家图书馆拥有丰富的数据库资源, 在此向读者列举介绍5个常用数据库资源, 其收录情况和检索方法如下:

2.1中国工具书资源全文数据库 (方正阿帕比) 的收录情况和检索方式

中国工具书资源全文数据库 (方正阿帕比) 是由哈佛大学、普林斯顿大学、芝加哥大学、北京大学、复旦大学、中华书局、大百科出版社、商务印书馆、上海世纪出版集团、北京出版社出版集团等单位共同建设的数据库系统。该数据库收录了国内各大出版社出版的工具书资源3000余种, 不仅能对工具书条目内容进行全文检索, 也可对图片进行检索和引用。其收录的工具书资源类型包括了字典、词典、百科全书、年鉴、手册、书目、索引、表谱、图录等[3], 并结合中国图书馆图书分类法对所有资源进行了专业的学科分类, 读者可以按照工具书类型和学科分类, 进行资源检索和查找。检索方式有简单检索、高级检索等。

2.2中国统计年鉴数据库 (挖掘版) (清华同方知网) 的收录情况和检索方式

中国统计年鉴数据库 (挖掘版) (清华同方知网) ) 即CNKI《中国经济社会发展统计数据库》是一个集统计数据查询、数据挖掘分析及个人数据管理功能于一体的大型统计年鉴 (资料) 数据总库。截至2012年底, 收录了自1949年以来的统计年鉴共305种3 577册, 普查资料124种290册、调查资料84种150册、统计资料汇编164种276册、其他统计资料31种138册, 资源总数共计708种4431册。其中, 中央级统计资料收全率达99%, 统计资料内容涵盖了国民经济与社会发展各领域, 是我国最大的官方统计资料集合总库。该数据库提供了3大检索平台, 即统计数据检索平台、统计年鉴导航平台和统计数据分析平台。统计数据检索平台在检索功能上分为数值检索、条目检索、专业检索和指标解释等, 便于读者快速查找到所需的指标蔬统计年鉴导航平台在检索功能上分为导航检索和自定义检索, 便于读者进行整本年鉴的快速定位浏览蔬在统计数据分析平台上, 读者可以根据研究课题需要, 通过定制地区、指标和年份等参数, 进行地区发展比对分析、单 (多) 指标分析、时间序列分析等。

2.3中国年鉴全文数据库 (清华同方知网) 的收录情况和检索方式

中国年鉴全文数据库 (清华同方知网) 是由中国学术期刊 (光盘版) 电子杂志社、同方知网 (北京) 技术有限公司、同方光盘股份有限公司、各年鉴编辑单位合作建设的拥有国家标准刊号并连续出版的年鉴全文数据库[4]。截至2012年底, 该数据库收录了各类世界年鉴、港澳台年鉴、全国各省市的综合年鉴、行业年鉴、学科年鉴、学校年鉴、企业年鉴年约2500种、2万册, 范围覆盖各种学科领域。提供检索方式有简单检索、高级检索、专业检索、整刊导航、数据指标等多种方式, 其中点选“数据指标”后, 可以链接至中国统计年鉴数据库 (挖掘版) 的检索平台。

2.4国务院研究发展中心信息网的收录情况和检索方式

国务院研究发展中心信息网是由国务院发展研究中心主管、国务院发展研究中心信息中心主办、北京国研网信息有限公司承办的大型经济类专业网站。该数据库由全文数据库、统计数据库、分析报告数据库、专题数据库、世经数据库集成, 包括内容有国研视点、宏观经济、金融中国、金融数据、宏观数据等方面。该数据库通过持续跟踪、分析国内外宏观经济、金融和重点行业基本运行态势、发展趋势, 准确解读相关政策趋势和影响, 及时研究各领域热点问题, 为用户提供研究和战略决策需要的高端信息产品。检索方式有简单检索和高级检索。

2.5国际组织与外国政府出版物网络资源整合服务平台的收录情况和检索方式

国际组织与外国政府出版物网络资源整合服务平台是通过对联合国等重要国际组织和外国政府实体与网络资源进行全面系统整合而构建的, 集资源导航与检索、用户交互于一体的网络服务平台。该平台整合的网络资源涉及政治与外交、经济与金融、法律与法规、科教与卫生、人口与人权等领域, 为读者查阅国际组织、外国政府的统计资料提供了便利。该平台的栏目有国际机构、资源库、特色阅览室、托存图书馆等。其中的国际机构、资源库是平台的核心栏目。“国际机构”栏目涵盖国际组织与外国政府的基本信息, 如联合国开发计划署、亚洲开发银行、美国政府的职能和统计出版物介绍。“资源库”栏目整合了“国际机构”栏目列出的所有机构所提供的各类型资源, 包括实体出版物、网络资源及在线数据库, 便于读者了解该领域内的所有可用资源, 并根据载体类型从不同的渠道获取信息。例如要获取农业方面的统计资料, 可以登录联合国粮农组织统计数据库来检索。

3利用国内外统计机构网站、政府机构网站、国际组织网站获取统计数据

随着互联网技术的广泛应用, 许多统计机构、政府部门、国际组织将各自的统计信息上网, 定期发布统计数据, 因此可以通过访问各国统计机构网站、政府机构网站、国际组织网站来获取统计数据。

3.1通过国内统计机构网站、政府机构网站获取统计数据

3.1.1通过国内统计机构网站获取统计数据

如中国统计信息网 (http://www.stats.gov.cn) 、北京统计信息网 (http://www.bjstats.gov.cn) 、香港特别行政区政府统计处 (http://www.censtatd.gov.hk/hkstat/index_tc.jsp) 、澳门特别行政区政府统计暨普查局 (http://www.dsec.gov.mo/default.aspx) 等。

中国统计信息网是由国家统计局网络信息管理协调小组办公室负责建设与维护, 以提供各地区各行业国民经济和社会发展统计信息为主的资料平台。该平台的栏目有统计公报、数据查询、数据解读、统计出版、网站链接等, 其中数据查询是平台的核心栏目, 包括内容有月度数据、季度数据、年度数据、普查数据、地方数据和部门数据等。

该文以查找2010年北京市在岗职工平均工资为例, 介绍通过中国统计信息网获取统计数据的方法。首先登录中国统计信息网, 在其页面点击“数据查询”, 打开国家数据页面, 找到“地方数据”, 在其下拉列表中选择“分省年度数据”, 然后细化检索条件, 在“指标”中逐层依次勾选“就业人员和工资”→“城镇单位就业人员平均工资和指数”→“城镇单位在岗职工平均工资”, 在“地区”中勾选“北京市”, “时间”中勾选“最近5年”后, 即可获取相关数值。

3.1.2通过国家各部委政府网站获取统计数据

例如通过商务部商务数据中心网站 (http://data.mofcom.gov.cn) , 可以查找到我国对外贸易、利用外资、投资合作等统计资料蔬通过中国证券监督管理委员会 (http://www.csrc.gov.cn) 网站中的“统计数据”, 可以查到我国证券市场的主要统计资料, 如证券市场快报月报等。

3.2通过国外统计机构网站、国际组织网站获取统计数据

3.2.1美国官方统计机构及统计刊物介绍

美国统计体系是典型的分散型的政府统计体系, 有近100个联邦机构从事各自分管领域的政府统计工作, 其中主要的统计机构如下:

(1) 商务部普查局是美国最大的联邦统计机构, 提供美国的国家和地区人口以及经济方面的数据, 包括人口数目、经济指标、美国商业统计、工业报告等。网址:http://www.census.gov

(2) 商务部经济分析局是美国重要的联邦统计机构, 负责国民经济核算工资, 并根据核算结果分析经济的发展状况。经济分析局负责国内生产总值、国民收入、投入产出、国际收支和分析地区经济资料的核算, 并对国民经济环境变化进行测定[5]。统计刊物有《美国统计摘要》。网址:http://www.bea.doc.gov

(3) 司法部司法统计局是美国联邦政府机构, 负责收集、分析、发布有关美国犯罪情况的数据。其网站上公布的数据汇总了近5万个组成美国司法系统机构的资料。网址:http://www.bjs.gov

(4) 劳动部劳工统计局是美国联邦政府劳动经济和劳工统计的主要机构, 负责收集分析劳动与价格的统计资料。其网站上提供的数据包括通货膨胀与价格、消费支出、失业数据、就业数据、福利待遇、产出率、工伤统计等。网址:http://stats.bls.gov

(5) 农业部国家农业统计局是美国农业部的统计部门, 负责每年就农业生产、经济、人口和环境等方面进行调查, 发布近500份国家报告, 同时, 每5年进行一次农业普查。网址:http://www.nass.usda.gov

(6) 教育部国家教育统计中心是美国教育部教育研究与发展办公室所属的教育数据统计分析机构, 定期发布反映美国教育现状与发展趋势的资料。网址:http://nces.ed.gov

(7) 疾控中心国家卫生统计中心是美国卫生及公共服务部所属的一个机构, 为保护公众健康和安全提供可靠的资料。网址:http://www.cdc.gov/nchs/Default.html

(8) 能源部能源统计办是美国能源部的能源信息数据统计和分析机构, 负责收集分析能源信息的统计资料, 包括能源储备、能源生产、技术、供需预测等, 为美国政府能源决策提供支持服务。网址:http://www.eia.gov

3.2.2其他国家的官方统计机构及统计刊物介绍

(1) 德国联邦统计局是德国联邦机构之一, 负责收集分析和发布统计资讯, 内容包括经济、社会与环境等议题。统计刊物有《德国统计年鉴》。网址:https://www.destatis.de/DE/Startseite.html

(2) 法国统计局负责收录多种相关领域资讯, 如人口统计、企业及经济指数等, 可查阅数个相关领域资料库以及由INSEE出版的刊物及研究报告。网址:http://www.insee.fr/fr

(3) 日本统计局负责协调各统计机构的活动, 并通过普查和抽样调查来进行国家范围的有关统计, 如人口普查、企业普查等。统计刊物有《日本统计月报》、《经济统计月报》、《国际收支统计月报》、《财政金融统计月报》、《东洋经济统计月刊》等[5]。网址:http://www.stat.go.jp

(4) 加拿统计局是加拿大联邦政府的部门之一, 负责进行全国人口、经济、资源、社会及文化的统计工作。网址:http://www.statcan.gc.ca

3.2.3国际组织网站及统计刊物介绍

(1) 国际货币基金组织负责收集发布财政、金融、国际收支等领域的统计资讯。统计刊物有《国际金融统计》、《国际货币基金概览》、《政府财政统计》、《国际收支统计年鉴》、《全球金融稳定报告》等。网址:http://www.imf.org/external/index.htm

(2) 国际粮农组织负责收集分析和发布世界粮农生产和贸易信息, 其数据信息包括生产、贸易、粮食平衡状况、粮食援助、农药与化肥、土地利用、林业产品、渔业产品、人口农业机械等方面[5]。统计刊物有《粮农组织统计年鉴》、《粮农组织渔业和水产统计年鉴》、《粮食与农业状况》、《世界渔业与水产状况》、《世界粮食不安全状况》等。网址:http://www.fao.org

(3) 经济合作发展组织是由全球34个市场经济国家组成的政府间国际组织, 每年出版500多种出版物, 如《经合组织年度报告》、《外贸统计》、《国际直接投资统计年鉴》、《保险统计年鉴》、《收入统计》、《国际收支平衡表统计》、《国际贸易商品统计》 (季刊) 等。网址:http://www.oecd.org

(4) 联合国开发计划署是联合国技术援助计划的管理机构, 也是联合国促进发展活动的中心协调组织。统计刊物有《人类发展报告》、《千年发展目标报告》、《UNDP年度报告》等。网址:http://www.undp.org

(5) 欧州统计局是欧盟专门负责汇总、编纂和出版统计资料的机构, 其统计信息来自欧盟成员国的国家统计局[5]。统计刊物有《欧盟统计局年鉴》。网址:http://ec.europa.eu/eurostat

(6) 亚洲开发银行, 是亚洲和太平洋地区的区域性金融机构。统计刊物有《亚太地区主要指标》 (年度) 、《亚行年度报告》、《采购统计季刊》、《亚行金融概况》和《亚洲经济监测》等。网址:http://www.adb.org

4结语

以上是利用纸质出版物、馆藏数据库资源以及互联网免费资源获取统计数据的途径和方法, 但限于篇幅, 在此不能一一列举。随着大数据时代的到来, 网络数据库技术的迅猛发展, 数字资源将更为丰富, 我们查找统计数据的途径和方法将更为多样。只有时时关注、及时掌握相关途径和方法, 才能更好地运用它们来获取统计数据。

摘要：统计数据与我们的工作生活息息相关, 是统计工作中所取得的反映国民经济和社会现象的数字资料, 是进行科研、掌握宏观指标、行业动态的重要佐证材料, 因此获取权威、可靠、准确的统计数据尤为重要。该文通过列举国家图书馆收藏的纸质出版物、订购的工具类与事实类数据库资源以及互联网上大量开放获取的统计资源, 让读者了解查找统计数据有哪些可以利用的文献信息资源及其查找策略, 并运用实例介绍获取统计数据的多种途径与检索方法。

关键词：统计数据,统计资料,获取,检索

参考文献

[1]张桂岩, 陆辉.网络环境下统计数据的查找[C].中国图书馆学会专业图书馆分会2007年学术年会论文集, 2007:170-172.

[2]关春光.浅谈如何编写年鉴[J].黑龙江史志, 2014 (19) :25.

[3]艾华.网络版年鉴的图片检索浅析[J].新世纪图书馆, 2012 (11) :19-21.

[4]李志明.我国两大年鉴全文数据库比较研究[J].图书馆学研究, 2009 (1) :66-69.

如何利用电话调查获取数据？篇2

在信息高度发达的今天，从来没有那种工具像电话这样被高频率使用，作为信息传递和沟通的重要介质，电话及其衍生的调研手段已被广泛应用，尤其是情报业务岗位。

本文将通过电话调查的手段――面、线、点三步法，来谈谈销售数据的获得。

一、面――纵观全局，准确把握基本面

以一个七叶皂苷纳的药品项目案例来剖析。通过掌握与项目有关的产品知识、行业状况，切入产品所涉及的相关行业。

获得行业情报

经过2-3天的搜集整理，行业状况基本得到了掌握：

1、项目中的产品是中药提取物，国家政策扶持类品种，医保范围用药；

2、目标调研公司的产品属于原研专利产品，在发改委单独定价，是国家同类产品标准制订时的参考试验品；

3、国内同类产品的生产企业不下20家，有3个品规：冻干粉剂，口服剂，搽剂；

4、冻干粉剂大约占70-80%，冻干粉剂主要的规格有2个：5mg ,10mg，

5、此类产品市场规模大约15个亿，国内重点市场区域；

6、部分重点企业的销售规模和市场位置关系。

情报来源和途径

通过互联网可以发现国内的一些药研所、协会、知名医院的研究部门在网上发布了一些七叶皂苷纳行业的研究报告，由此分析，这个产品应该是一个比较热门的产品，同时得到一个假设：目标公司举足轻重，可能影响行业标准的制订。

由于对一些关键性的行业信息做了准备和分析，为进一步的工作作了铺垫。情报人员先后借不同名称的高等院校管理学院的学生的名义，以撰写毕业论文为由，向多个药研所打电话咨询该产品的市场发展趋势、医生用药习惯、国内市场规模、不同区域市场容量等等。许多相关重点问题都得到了专家给出的极具参考价值的答案。

获取数据篇3

关键词：数据档案大数据移动终端

在大数据时代，移动终端设备层出不穷，其优势也愈发明显，不仅携带方便，可以随时随地获取数据，而且具备综合信息处理平台的作用，可以简单处理各类数据信息，以及发布和传输数据。更为重要的是，移动数据终端将拍照、通信、网络处理等技术整合，可以满足多种需求。鉴于移动终端的优势，以及大数据时代产生海量数据以后，一些具有长期保存价值的数据将成为数据档案的现状，笔者认为档案部门未来可以利用移动终端来获取数据档案。

一、数据档案的概念和分类情况

数据档案，是指以数据形式存在的具有保存和利用价值的数据资源。相较而言，档案数据则更多地从归档数据的角度进行探讨，其主要包括两大部分，一是归档单位产生和移交的业务类数据。二是档案部门将馆藏档案数字化后产生的数据。而本文所指的数据档案则从档案信息资源的角度出发，主要包括公共档案馆、数据开发商、个人家庭保管的具有保存和利用价值的数据。由于目前没有相关文献涉及数据档案的详细分类，笔者在借鉴有关概念的基础上，结合档案工作，以数据产生的渠道为依据，将移动终端持有者可利用的数据档案资源划分为三大类。一是公共数据档案。这类数据档案是开放获取的，不受具体限制，是指各种具备国家档案属性的各类数据档案资源。例如国家各级综合档案馆保管的数据档案资源，政府机构和国有企事业单位保管的国家所有数据档案资源。二是商业性数据档案资源。是指由各类商业机构，根据商业需要开发的营利性数据档案资源。例如，腾讯公司在全国建立的数据中心保管的各类数据。三是私有性质的数据档案资源。是指属于个人或者家庭、家族、私有机构保管的数据档案资源。例如，个人的摄影电子照片、家族或者私有企业保管的档案数据资源等。

二、各类数据档案资源利用移动终端的条件

（一）档案资源必须为数据档案

档案资源，包括传统档案资源与数字档案资源。传统档案资源一般为非数字环境下的各类载体所承载的档案资源，包括纸质档案、实物档案等，而数字档案资源，包括在各类活动中形成的电子文件直接转化而来的数字档案资源，以及馆藏档案数字化后的数字档案资源。这两种数字档案资源的产生和利用都必须依托数字化背景。档案在线利用可以从文本、声音、图片、影像等方面综合呈现档案信息，但是这类档案资源脱离了传统载体，依托数字环境产生和发展。实现数据档案资源的在线利用，作为信息来源的档案资源必须具有共享性、交互性、异地性、异时性等多种优势。共享性与交互性使数据档案资源在线利用成为开放的、可能的，异地性与异时性保证了数据档案资源利用过程中的便捷与高效。

（二）利用专门的软件和数据平台，才能下载和在线阅读

数据档案需借助中间平台实现其利用功能。软件和数据平台起到了知识信息资源桥梁的作用，沟通了桥梁的两端——作为资源提供方的所有者与作为资源需求方的用户。软件与数据平台开发者根据用户的需求和检索行为模式，在平台的构建过程中实现查阅、在线阅读、下载等多种功能，以便信息资源的获取。利用专门的软件和数据平台，一方面保证了档案信息资源的获取行为是可能的，无论是查阅还是深度阅读，都能有资源的获取渠道；另一方面又限制了获取档案信息资源的渠道，将利用行为限制在一定范围内，防止档案信息资源的滥用与触及法律的行为，如非法获取档案信息资源的行为。

（三）利用方必须获得数据档案资源所有者的授权或支付费用

依托软件和数据平台的档案信息资源在线利用，要符合一定的条件，即档案资源的利用行为需保护数据档案资源所有者的权益，协调好数据档案资源利用者与数据档案所有者之间的关系。在这种前提下，利用者或者经过所有者的授权，保证利用行为符合数据资源所有者的意愿，利用行为未侵犯数据资源所有者包括知识产权在内的各类合法权益；另一方面，利用者可以通过支付一定的费用，购买数据档案。现阶段的万方数据库、维普资讯网、中国知网等各类数据库便是通过收取费用允许用户下载相应文献，鼓励用户以支付费用的形式购买需要的各类信息资源。

三、利用移动终端获取数据档案的模式探索

利用移动终端设备获取数据档案，与传统档案信息获取行为互为补充，形成高效、便捷、多渠道的档案信息获取模式。不同性质的数据档案，也应采取不同的数据获取方式，使数据档案借助移动终端设备，得到最大化的利用。

（一）公共性数据档案资源获取模式

公共性数据档案资源获取模式，是一种用户主动获取公共数据档案资源的模式。由于公共档案数据资源涉及较多政府、企事业单位的档案信息，部分档案数据涉及隐私和安全，因此不便公开。利用者获取公共数据档案资源，不需要支付费用，但需经过在线申请程序，由档案数据资源所有者甄别其隐私性和安全性。对由于各种原因不能推送的档案数据资源，通过移动网络给予申请者及时反馈，并说明理由；对于可公开的档案数据，通过移动网络发送至申请者，申请者便可借助移动终端设备接收数据进行下载利用。

（二）商业性数据档案资源获取模式

商业性数据档案资源获取模式，是一种用户通过在线支付获取商业性数据档案资源的模式。对于商业性档案数据资源，用户需经过在线申请程序，对所需资源进行确认，并由商业机构审核通过。根据申请者想要获取的档案数据资源的数量、价值及商业性机构的有关规定，申请者支付指定的费用购买所需档案数据资源，并利用移动网络第三方在线支付平台，如支付宝、百付宝、财付通、银联在线等，支付一定的费用，实现对数据资源的购买行为。商业机构继而对用户支付的档案数据资源调出并推送至支付用户。支付用户借助移动终端设备接收数据，进行下载利用。

（三）私有性档案数据资源获取模式

私有性档案数据资源获取模式，是一种用户利用专门平台搜索资源门户网站，再获取特定的私有数据资源的模式。用户对私有档案数据资源的获取，首先通过移动网络平台在线搜索，将所需资源限定在一定范围内。私有数据资源的所有权确认是用户获取数据资源的关键环节，基于私有数据资源的私有性和隐秘性特征，其归属权不像公共档案数据资源那样易于知晓，需要用户在经过资源搜索后，对资源的归属权多方查证、确定，防止网络环境下数字档案的复制行为所引起的归属权不明问题产生。其次，对私有档案归属权的确认行为引导用户对所有权人提出申请，获取私有数据资源。用户与所有者达成协议，或者基于商业模式的在线支付，或者通过其他途径获得免费特许，享受指定私有数据利用资格。最后，由所有者进行数据推送，用户通过移动终端设备接收数据信息，实现对私有数据资源的利用。

（四）数据中心主动对特定用户精准推荐数据档案模式

我国的政府机构、企事业单位，在建立数据中心和档案数据化的基础上，可以利用移动网络，由数据中心主动对一些特定用户精准推荐数据档案资源。数据中心通过移动终端精准推荐数据服务，需要具备两个条件：（1）选定特定的数据档案资源。例如，数据中心保存的有关个人的任职、转正、退休、奖励等相关数据，精准推荐给用户个人。（2）选定特殊用户的终端识别号（用户号），例如手机用户的微信号、手机号、手机邮箱等。只有在选定了特殊的用户后，数据中心才能主动给选定用户精准推荐数据档案。精准推荐数据档案的服务，可以提高档案的利用效率，同时也将档案服务方式由被动转为主动。例如，一些高校档案馆，整合数据库中一些教师个人的职称、学历、科研、财务经费等数据，利用移动网络平台主动推荐给教职工，教职工在手机上直接点击就可以在线阅读和下载数据档案。

综上所述，在大数据时代的背景下，必须在原有档案信息资源获取方式的基础上，加强对移动终端获取数据档案模式的研究。同时，也应对移动终端获取数据档案过程中可能出现的问题加以重视，包括移动终端获取档案资源过程中产生的知识产权问题、数据开发商与档案资源所有者之间的博弈问题、档案信息资源提供过程中应兼顾社会服务性与各方利益平衡等问题。

*本文为2015年国家档案局科技项目“大数据时代国家综合档案馆的数据精准推荐及数据专题服务研究”（项目编号：2015—X-16）的阶段性研究成果。

参考文献：

[1]李广都.网络强国战略下区域性数据档案中心建立分析[J].中国档案，2015（10）：64-65.

[2]傅荣校.我国国家档案馆公共服务能力评估研究综述[J].浙江档案，2014（6）：10-13.

[3]黄丽华，宋华.移动档案馆建设研究[J].中国档案， 2016（6）：59-61.

地理模拟系统的空间数据获取篇4

数据可分为第一手的原始数据和处理过的数据,也可以分为数字化的数据和非数字化的数据(表1)。数据是GIS的基础和核心,通常情况下,一个GIS项目的资金分配为硬件、软件、数据各占10%、20%、70%。

一般需要采集的GIS空间数据有以下几种:

a.各类统计调查数据;

b.野外调查测量数据,包括调查记录文本、GPS、全站仪等仪器所测得的数字化数据资料;

c.已有地图(专题图)数字化;

d.遥感数字图像;

e.修改或转换已有数据库资料。

GIS数据采集工作的主要任务有将现有的地图、外业观测成果、航空像片、遥感图片数据、文本资料等转换成GIS可以识别和处理的数字形式;数据添加到数据库之前进行验证、修改、编辑等处理,保证数据在内容和逻辑上的一致性;不同的数据来源需要进行数据转换和处理,便于GIS的分析和处理工作的进行,数据转换需要使用到不同的软件、设备和方法,数据处理包括生成拓扑关系、几何纠正、图像镶嵌和裁剪等。

图像数据是GIS空间数据的重要组成部分,图像数据的收集实际上就是数字化的过程。一般有扫描数字化和手扶跟踪数字化两种数字化方法。扫描数字化是使用扫描仪直接把图形(地形图、专题图等)和图像(航空像片、卫星像片等)扫描输入到计算机中,以像元信息进行存储表示,然后采用矢量化软件从栅格图像上自动或半自动生成矢量数据;手扶跟踪数字化是使用手扶跟踪数字化仪,将已有图件作为底图,对某些需要的信息进行跟踪数字化。一般来讲,扫描数字化因其输入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎,且随着计算机硬件的发展,计算机运算速度、存储容量的提高,使得扫描输入已成为图形数据输入的主要方法。

属性数据是记录和描述空间实体对象特征的数据。属性数据一般包括名称、等级、数量、代码等多种形式。属性数据有时单独存储在空间数据库中,形成专门的属性数据文件,有时则直接记录在空间数据文件中。往往需对属性数据进行编码处理,将各种属性数据变为计算机能有效存储和处理的形式。属性数据的编码一般需要基于以下三个原则:编码的系统性和科学性,编码方式必须满足科学的分类方法,以体现该类属性本身的自然性,容易识别和区分;编码的一致性,编码必须前后一致,所定义的专业属于必须是唯一的;编码的标准化和通用性,为便于信息交流和共享,所建立的编码系统必须尽可能的遵循标准方式。

2 利用各种GIS空间分析方法获取进一步数据

GIS数据库存储基础的空间数据,在具体的应用中往需要利用各种GIS空间分析功能来获取进一步的空间数据。GIS空间分析的一般方法下面介绍。

2.1 空间查询和检索

用来查询、检索和定位空间对象,包括图形数据的查询和属性数据的查询以及空间关系的查询几种方式,空间查询和检索是GIS的基本功能之一,也是进行其他空间分析的基础操作。

2.2 空间量算

空间量算主要是用一些简单的量测值来初步描述复杂的地理实体和地理现象,这些量测值包括点、线、面等空间实体对象的重心、长度、面积、体积、距离和形状等指标。

2.3 空间插值

空间插值用于将离散的测量数据值,按照某种数学关系转换为连续变化的数学曲面,以便与空间实体的实际分布模式进行比较,并可以推求出未知点和未知区域的数据值。

2.4 叠置分析

叠置分析是GIS空间分析中重要的分析方法之一。GIS中使用分层方式来管理数据文件,叠置分析是将同一研究区的多个数据层集合为一个整体,对多个数据层进行交、并、差等逻辑运算,得到不同层空间数据的空间关系。叠置分析又包括矢量数据的叠置分析和栅格数据的叠置分析两种。

2.5 缓冲区分析

缓冲区分析是GIS空间分析中使用较多的分析方法之一。缓冲区分析就是对一个、一组或一类空间对象按照某一个缓冲距离建立其缓冲区多边形的过程,然后将原始图层与缓冲区图层相叠加,进而分析两个图层上空间对象的关系。从数学的角度来说,缓冲区就是空间对象的邻域,邻域的大小由邻域半径(即前面所说的缓冲距离)来确定。缓冲区分析与叠置分析不同,前者包括了缓冲区图层的建立和叠加分析,而后者只是对现有的多个数据层进行叠加分析,并不自己生成新的图层参与分析。

3 利用GIS获取城市模拟的输入数据

城市模拟所需要的特定信息一般是通过执行GIS空间分析功能来获取的。通常用已有的GIS图层直接作为城市模拟的输入,但有时候在进行城市模拟时为了提取模型所需的特定信息,就需要执行地图操作。城市是一个非常复杂的巨系统,因此,城市模拟通常要涉及许多空间变量。空间分析对于量化这些空间变量来说是至关重要的。最简单和传统的GIS空间分析是叠置分析。叠置分析的概念出自于传统的地图比较。在过去,因为每一幅地图包含的信息都不同,地理学家需要在不同的图层上进行地图比较。在GIS数据库中,空间变量是作为层存储的。

基于数字化地图的叠置分析比基于纸质地图的人工分析在实际应用中有极大的优势。GIS叠置分析能方便找到在多个图层上满足一定条件的位置,在设施选址的有许多十分成功的例子。例如,可利用GIS叠置分析查找放置放射性物质的适合位置。用于分析的地理要素包括人口、通达性和保护区等图层。GIS叠置分析在层与层之间的操作非常方便。GIS层通常包含点、线、面要素。通过对这些要素执行相交和合并操作,可以建立新的要素和新的空间关系。

缓冲区分析是另一种提取空间信息的普遍技术,这些空间信息与距离和邻近度(Proximity)有关。邻近度(Proximity)是重要的空间决策因子。例如,在环境敏感源(饮用水)附近区域不适合建造污染工业。可利用GIS的缓冲区分析功能,在环境敏感源处建立一个缓冲区,代表这是问题区域。在大多数情况下,离源点越远,影响会逐渐变小。例如,当位置远离城市中心的时候,城市的吸引力逐渐变小。可用一个负的指数函数用于表达这种影响,例如以下的方程:

在栅格的数据结构环境下,GIS包提供了多种基本的算法运算功能,从而使得计算这种随距离而衰减的影响度变得十分容易。地图操作允许通过整合不同数据源的地图得到新的信息。大多数GIS包有下列功能:

a.算术运算;

b.几何量算(例如计算点、线和面的距离);

c.叠置分析和缓冲区分析;

d.统计分析(例如执行包括各种空间变量的回归分析在内的一系列统计操作)。

获取数据篇5

想做好淘宝店铺运营就必须做好行业的数据工作！数据不但要会看，更要懂得如何去分析数据！这样才能找出规律来制定运营方法。一说到数据分析许多人可能会想到数据魔方和E生经了，但是这两个可是收费工具哦，而且还限制了必须达到一定的店铺等级才能使用！这对于小卖家来说就是可望不可求呀！这个时候华农百灵电商淘宝运营培训就要给你推荐使用淘宝指数了，淘宝指数不但免费且实用，而且更能分析出更多有用的数据来。因为淘宝指数能够让小卖家在没有数据魔方和生E经的情况下也能使用淘宝指数来获取到淘宝的搜索热点、成交走势、定位消费者人群、研究细分市场等！所以懂得使用淘宝指数能够获取到非常具有价值的数据，那么如何使用淘宝指数来获取数据做好运营？

首先打开淘宝指数，了解里面的四大功能模块：长周期走势、人群特性、成交排行和市场细分。

淘宝指数运营秘籍一：排行榜

我们可以发现，在排行榜里面，它统计了淘宝top20类目的热搜词以及该类目下最近一周的热门搜索词。在这里我们就可以清楚的看到目前哪些类目是热销类目以及哪些产品是有市场潜力的。当我们找到自己所在的类目时，就可以找出最近的热词有哪些，根据自己店铺的情况，适当的把一些趋势热词放进我们的标题描述里面，当然也不能说越热门的词越好，还是要看情况的。

淘宝指数运营秘籍二：选择将来走势好的细分类目

如果说“搜索排行”在一定程度上是代表着市场需求趋势的话，那么，“成交排行”则表示某个类目下某段时间内某种产品受消费者青睐的程度。在实际运营店铺中，“搜索排行”是看趋势，更关键的是需要看“成交排行”！

以女装来举例，大家可以根据自己经营的类目用相同的方法来看，思路是一样的。如图：

这里我们以“踩脚裤”来给大家做分析，我们把鼠标放到“踩脚裤”上面，然后点击进入，点进去则如图所示：

在这里，我们可以看到某个类目的发展趋势，我们在选择准备进入的类目或是在做月度计划时，我们就可以利用淘宝指数，找出相应类目它的一个发展趋势，根据其旺淡季来合理的安排自己的运营计划。

那么，我们具体怎么查看其发展趋势呢？点进去之后，我们看右边的图：

发现是最近七天的趋势，而我们要看发展趋势来指导我们做运营计划，肯定不能只看最近七天的发展趋势的，如果我们想看它一个月、一个季度或是去年一年的发展趋势，我们应该怎么看呢？如图：

我们把下面的小三角拖到去年的11月份，就会出现从去年11月份到今年11月份的一个整体的发展趋势。从这折线图，我们可以看出要是经营“踩脚裤”这个类目时，根据寒冬季节和需求不断走低的情况，我们在接下来做运营计划时，就不是大力囤货加大力度推广了，而是把重点放在未来几个月发展趋势更好的商品上。

淘宝指数运营秘籍三：分析长尾词的竞争强度

当我们回到“成交排行”的页面，鼠标点击“踩脚裤”时，就可以看到这些词的核心关键词只有一个，那就是“踩脚裤”。在我们优化宝贝标题的时候，核心词有且应该只有一个，然后围绕着这个核心词再来扩充长尾词。当然在优化宝贝标题时，最好选择搜索量大，转化率高，宝贝数量少的热搜词，我们习惯叫做黄金长尾关键词。

淘宝指数运营秘籍四：怎样查找黄金长尾关键词

展开“打底裤”我们可以看到下面总共有27个词，那哪些词才是我们需要的黄金长尾关键词呢？我们只需要选择一个核心关键词“踩脚裤”，然后围绕着这个核心的关键词，在遵循淘宝分词技术的前提下，组合竞争强度低，同时又是热销的关键词。这时，我们可以借助excel简单分析出哪些才是我们需要的黄金长尾关键词。如图所示：

获取数据篇6

【关键词】中职物理力学实验数据获取分析处理整体法隔离法

【中图分类号】 G712 【文献标识码】 A 【文章编号】 1992-7711（2016）01-033-020

1.研究的背景和意义

1.1物理课程改革的理念

物理课程改革的核心理念是通过突出科学探究来提高学生的科学素养。科学探究是新一轮物理课程改革的突破口，中等职业学校物理课程标准中明确指出：在课程目标上，过程与方法作为三维目标之一单独列出，要求学生经历科学探究过程，认识科学探究的意义，尝试应用科学探究的方法研究物理问题，验证物理规律；在课程内容上，将科学探究列入内容标准，根据科学探究的七个要素，对科学探究能力提出具体要求。

1.2物理学科的特点

物理学是一门以实验为基础的科学，实验不仅是一种验证性的实践活动，更是一种探究性的实践活动。探究性实验作为一种重要的实验形式，同时也是科学探究的一种有效方式。探究性实验能更充分地体现学生学习的主动性、探索性和创造性，探究性物理实验可以在物理实验教学中发挥重要作用。因此实验数据的获得和对实验数据处理就显得特别重要。

1.3物理实验教学的现状

长期以来，传统的物理实验教学存在着三种倾向：其一、表现为重理论轻动手；其二、表现为只动手不动脑；其三、表现为验证多探究少。因此，基于对中等职业学校物理课程改革理念、物理学科特点以及物理实验教学现状的认识，要促进学生科学素养的全面提高，我们要用科学探究思想指导物理实验教学改革，大力开展探究性物理实验的教学，从而充分发挥物理实验的科学探究功能，培养学生的科学探究能力，用科学的教学思想培养学生获得实验数据和对实验数据处理的能力，进一步改进物理实验教学的效果。

2.研究内容和实施步骤

2.1中等职业学校学生对实验数据的获得和对实验数据处理能力现状调查

2014年以来，我们对新一年级学生进行学生生源情况调查，调查结果发现：新生90%左右是农村人口，70%左右是边远黄河滩区和偏远特困区农家子弟。同时进行新生入学摸底考试和问卷调查，结果物理科平均成绩不到30分（满分100分），及格人数不到10%。问卷调查表明，新生的学习习惯不良，缺乏自主学习，与人沟通、合作交流、科学创新的能力，很大一部分同学初中三年都没亲手做过一次物理实验，对基本物理实验仪器的规范操作和使用，对如何有效地获取并优化处理实验数据的手段和方法知道甚少。

2.2物理实验数据的获得和对实验数据处理的实施途径

（1）课堂教学中实施。

（2）课外活动中实施。

（3）实验课上实施。

2.3常见实验数据的获得方法

2.3.1利用测量工具直接测量的基本物理量模块

基本物理量测量仪器力学长度刻度尺、游标卡尺、螺旋测微器时间秒表（停表）、打点计时器质量（力）天平（弹簧秤）

2.3.2常见间接测量的物理量及其测量方法

有些物理量不能由测量仪器直接测量，这时可利用待测量和直接测量的基本物理量之间的关系，将待测物理量的测量转化为基本物理量的测量。

模块待测物理量基本测量方法

力学速度？利用纸带，vm=Sx+Sx+12T；%利用平抛，v=xg2y加速度？利用纸带，逐差法a=&ST2；%利用单摆g=4N2LT2功根据W=&Ex转化为测量m、v3

2.4常用实验误差的控制方法

为了减小由于实验数据而引起的偶然误差，常需要采用以下方法控制实验误差。

（1）多次测量求平均值

这是所有实验必须采取的办法，也是做实验应具有的基本思想。

（2）累积法

一些小量直接测量误差较大，可以累积起来测量，以减小误差。用单摆测定重力加速度的实验中，为了减小周期的测量误差，不是测量完成一次全振动的时间，而是测量完成30～50次全振动的时间。

2.5常用实验数据的处理方法

实验中测得的数据需要很好地记录、表示、分析、计算，然后从中得到实验结论，找出实验规律，这一过程称为实验数据处理。物理实验数据处理的方法一般有列表法、公式法（逐差法）、平均值法、图象法（化曲为直法、图象外推法、图象面积法）、计算机辅助处理数据。

（1）列表法

在记录和处理数据时，常将数据列成表格。数据列表可以简单而又明确的表示出有关物理量之间的关系，有助于找出物理量之间的规律性的联系。列表的要求是写明表的标题或加上必要的说明；%必须交待清楚表中各符号所表示的物理量的意义，并写明单位；表中的数据要正确反映测量结果的有效数字。

（2）逐差法

这就是用打点计时器打出的纸带计算加速度时用到的方法，这种方法充分利用了测量数据，具有较好的取平均的效果。

（3）平均值法

将测定的若干组数相加求和，然后除以测量次数。必须注意，求取平均值时应该按原来测量仪器的准确度决定保留的位数。

（4）作图法

用作图法处理实验数据是物理实验中最常用方法之一。用作图法处理数据的优点是直观、简便，有取平均的效果，由图线的斜率、截距、所包围面积和图线的交点等可以研究物理量之间的变化及其关系，找出规律。作图的规则是：作图一定要用坐标纸.坐标纸的大小要根据测量数据有效数字的多少和结果的需要来定；%要标明坐标轴名、单位，在轴上每隔一定相等的间距按有效数字位数标明数值；图上连线要是光滑曲线（或直线），连线时不一定要通过所有的数据点，而是要使数据点在线的两侧合理的分布；（在图上求直线的斜率时，要选取线上相距较远的两点，不一定要取原来的数据点；）作图时常设法使图线线性化，即化曲为直。

（5）计算机辅助处理数据

当今，信息技术在中等职业学校物理学科中应用日益广泛，学生的信息技术水平日益提高。利用计算机记录数据、处理数据，利用计算机进行数据的图象处理，已经为广大的师生所接受。计算机辅助处理数据是信息技术和物理学科整合的一个重要方面。

（6）有关误差分析的问题

要求认识误差问题在实验中的重要性，了解误差的概念，知道系统误差和偶然误差；知道用多次测量求平均值的方法减小偶然误差；能在某些实验中分析误差的主要来源；不要求计算误差。

3.学生对实验数据的获得和对实验数据处理能力培养途径探究

（1）变演示实验为师生共同完成实验，给学生创造更多的自主动手的机会。

（2）变学生实验为学生自主动手设计实验，培养学生的创新能力。

（3）通过实验专题讲座，拓宽学生思维，规范实验设计程序。

（4）开展课外活动，让学生自己动手进行课外小实验的活动，让每个学生都自己设计一些课外小实验，并亲自动手。

4.学生受力分析处理探究

学生在解决力学问题时，往往采用隔离法或整体法。整体法是从局部到全局的思维过程，是系统论中的整体原理在力学中的应用。通常在分析这一整体对象之外的物体对整体的作用力（外力），不考虑整体内部之间的相互作用力（内力）时，用整体法。隔离法就是把要分析的物体从相关的物体体系中隔离出来，作为研究对象，只分析该研究对象以外的物体对该对象的作用力，不考虑研究对象对其他物体的作用力。在分析系统内各物体（或一个物体的各个部分）间的相互作用时用隔离法。

4.1系统处于平衡状态

整体都处于静止状态或一起匀速运动时，或者系统内一部分处于静止状态，另一部分匀速运动。以上这些情况，整体都平衡，整体内每个物体所受合力为零，整体所受合力也为零。这样，根据整体的平衡条件，就可以确定整体或某一个物体的受力特点。

例1：在粗糙水平面上有一个三角形木块abc，在它的两个粗糙斜面上分别放两个质量m1和m2和木块，m1>m2，如图所示，已知三角形木块和两物体都是静止的，则粗糙水平面对三角形木块（）。A.有摩擦力的作用，摩擦力的方向水平向右；B.有摩擦力的作用，摩擦力的方向水平向左；C.有摩擦力的作用，但摩擦力的方向不能确定，因为m1，m2，θ1，θ2的数值并未给出；D.以上说法都不对。解析：这样类型的问题优先选用整体法，根据整体受力平衡，则很容易判断水平面对三角形木块摩擦力为零，且弹力等于整体的重力之和，所以D正确。

例2：质量m=5Kg的物体置于质量为M=20Kg的粗糙斜面上，斜面的倾角α=370.用一平行于斜面向上、大小为40N的力F推物体，使物体沿斜面M向上作匀速运动，这时M保持静止状态（g=10m/s）。则地面对斜面的摩擦力大小为 N，斜面对地的压力大小为 N.

解析：这种类型通常习惯利用隔离法分析，先分析物块，在对斜面体进行分析，过程比较复杂。如果利用整体法会比较简单，因为整体都处于平衡状态，所以合力为零。根据整体水平方向平衡，可以得到地面对斜面体的摩擦力f=Fcosα=32（N），根据整体竖直方向平衡，得到地面对斜面的支持力N=（M+m）g-Fsinα=226（N）。

4.2系统处于不平衡状态且无相对运动

由于系统内物体间没有相对运动，即整体内每个物体都具有相同的速度和加速度，这时整体所受的合力提供整体运动的加速度。这种情况利用整体法，更容易把握整体的受力情况和整体的运动特点。

例3：光滑水平面上，放一倾角为θ的光滑斜木块，质量为m的光滑物体放在斜面上，如图所示，现对斜面施加力F，若使M与m保持相对静止，F应为多大？

解析：由于斜面光滑，物块只受重力和斜面的弹力，而且和斜面一起运动，则先隔离物块分析受力，计算出加速度a=gtan，方向水平向左，再根据整体法可以求得F=（M+m）gtan.

这是典型整体法与隔离法的综合应用（先隔离后整体）。

4.3系统内部分平衡部分不平衡

这种情况由于系统内物体的运动状态不同，物体间有相对运动，通常习惯用隔离法。若系统内两个物体一个处于平衡，另一个处于不平衡状态时，也可以利用整体法来分析，有时会使问题简化易于理解。

例4：若例3中使M静止不动，F应为多大？

解析：这就是非常典型的系统内部分平衡部分不平衡的问题，物块在光滑的斜面上沿斜面加速下滑，处于不平衡状态，而斜面体在光滑的水平面上由于外力F作用而保持静止不动，及平衡状态。这种类型许多学生都习惯用隔离法分别对物块分析，从而计算出物块和斜面之间的弹力，然后再分析斜面，根据斜面的平衡来确定外力F的大小。

这种类型如果利用整体法来分析要简单得多，这里整体所受的合力就等于处于不平衡的物块所受的合力。当然，这里首先要根据物块受力明确物块的加速度，方向沿斜面向下。

整体受力为：重力（M+m）g、地面的支持力N和外力F

用正交分解法，将加速度分解为水平方向ax=acos=gsincos；竖直方向ay=asin=gsin2，

再根据牛顿第二定律得到：F=max=mgsincos=mgsin2，（M+m）g-N=may=mgsin2

这种方法很显然要比分别隔离来计算要简单方便。

综上所述，在分析多个物体相互作用时，灵活运用整体法和隔离法对问题解决将会带来很大的方便。特别是在教学过程中有意识地培养学生整体法的思维意识，帮助学生能够更加全面地理解力和运动的相互关系，更加有利于学生思维能力的提升。

基金项目：2015年河南省职业教育教学改革立项项目“河南职业院校教师育人能力提升问题研究”（立项号：ZJB15126）阶段性成果。主持人：王凤珍

[ 参考文献 ]

[1]梁昆淼.力学，上册（修订版）.高等教学出版社，1978，12修订第2版，64.

[2]漆安慎杜婵英.力学，高等教育出版社.1997，7，1版，222.

[3]中国大百科全书，物理学，Ⅱ.中国大百科全书出版社，1987，7，1版，1236.

[4][英]伊萨克·牛顿.自然哲学之数学原理.陕西人民出版社.2001，1，1版，18.

获取数据篇7

传统的水位量测有2种方式,一种是安装水尺,人工目测读数,这种方法耗时耗力,特别是在环境恶劣情况下,会对量测人员的安全构成威胁;另一种方式是利用传感器自动采集表征水位的模拟量,然后转换成水位数据。水位传感器主要有浮子机械(光电)编码式、压力式、雷达式、超声波式等传感器,这些传感器各有优点,但缺点也非常明显,例如浮子机械(光电)编码式可靠、便宜,适合各种情况使用,但是,需要建造测井房,造价高;压力式传感器受水质变化的影响,要经常检查并调整率定系数;超声波水位传感器置于明渠之上,外界干挠多,常带来所测水位漂移的现象。

本文在试验研究的基础上,利用CCD摄像机获取水尺视频,然后从视频流中实时提取水尺图像,通过边缘检测、灰度拉伸、二值化等一系列处理后,获得目标特征图像——刻度线,再运用Hough变换,识别出刻度线条数,从而计算出水位值。这个过程除了利用摄像机获取视频外,主要通过软件实现,因此精度高、环境要求低,具有应用前景。

1 含有水尺的图像信息获取及预处理

从水尺图像中获取水位数据,首先需要经过视频流截取、彩色图像到灰度图像的转换、刻度区提取、刻度图像二值化、去噪及刻度线细化等一系列预处理。

1.1 视频流的截取

一般摄像机拍摄到的视频流都是AVI(Audio Video Interleaved)格式。利用微软MSDN(Microsoft Developer Network)提供的AVI处理函数,可以从视频流中截取图像。为了避免非常态干扰,保证测量精度,1次可以提取多帧图像,处理后,取其平均值作为某一时刻的水位测量值。

1.2 图像的灰度转换

如果用彩色摄像机获取视频,应先将彩色图像转换成灰度图像以方便后续的处理。以256色的彩色图像为例,灰度转换可利用以下公式[1]:

式中:R,G,B对应的是红,绿,蓝3种颜色的亮度值。

灰度化的结果如图1所示。

2.3 水尺图像的提取

对图像的逻辑操作主要以像素为对象,对2幅或多幅图像进行“与”和“或”操作。例如,1个任意的二进制数与全1的二进制数进行“与”操作,结果保留原来的二进制数;如果与全0的二进制数进行“与”操作,结果为全0。同样,1个任意的二进制数与全1的二进制数进行“或”操作,结果为全1;如果与全0的二进制数进行“或”操作,则结果保留原来的二进制数。“与”和“或”操作通常作为模版,通过操作可以从1幅图像中提取出子图像。在“与”和“或”图像模版中,二进制码1表示白色,0表示黑色[2]。

因拍摄水尺的摄像机固定不动,故水尺在每帧图像中的位置不变。依据这个特定情况,就可以建立1个要提取区域的图像模版,大小正好包含刻度区域,如图2 a所示。

2.4 图像的对比度拉伸

灰度转换后得到的图像只有白或黑2种灰度,因此,水面与刻度的灰度是一样的。为了提取刻度区域,去除水面区域,必须扩大两者的灰度级差。可利用公式来扩大[3]:

式中:(x,x1)为包含水面与刻度线灰度值的1个灰度区间,通过x1和x2值的设定,扩大水面与刻度线的灰度级差,如图2 b所示。

2.5 图像的二值化处理

二值化的目的是去除非目标图像,包括水面、背景等。对于1帧特定的图像,可以通过多次阈值试验分析后得出1个合适阈值。由于摄像机捕获的水尺图像受光照的影响,无法给定1个常量阈值对图像进行二值化,不过,可以利用全局门限处理得到1个较为合适的阈值。设门限T是最大与最小灰度的中间值,利用这个门限去除背景部分,留下对象本身,就可以通过对图像的分割,实现去留。具体做法是:灰度级≤T的像素均标记为黑色(0),灰度级>T的像素均标记为白色(255)。

门限T的计算步骤如下:

1)选择1个T的初始值;

2)用T分割图像,生成2组像素,由所有灰度值>T的像素组成区域G1,所有灰度值≤T的像素组成区域G2;

3)对区域G1和G2中的所有像素计算平均灰度值µ1和µ2;

4)计算新的门限值,

5)重复步骤2到4,直到逐次迭代所得的T值之差小于事先定义的参数。

经过二值化处理后就可以得到只有刻度线的图像,如图2 c所示。

2.6 图像腐蚀

水面及背景去除后,还可能留有一些与刻度线灰度值相当的干扰点,因此,还要进一步通过腐蚀去除这些干扰点,谓之去噪。因为水尺刻度线均为水平线,所以沿水平方向腐蚀即可。

腐蚀的过程如下:对二值图像中所有的黑点进行遍历,如果当前黑点的左右2个点都为黑色,那么保持不变;否则把当前黑点变为白点。

2次腐蚀的结果如图3 a和3 b所示。

2.7 图像的“细化”

图像所表征的核心意义是去除了“杂质”和次要因素后的图像“骨架”。“骨架”的获得过程通常称为图像“细化”。通过对“骨架”几何及拓扑性质的识别,可以获取其表征对象的信息。

在“细化”图像的过程中应满足以下2个条件:1)图像要按比例缩放;2)图像的连通性质应保持不变。

“细化”算法:设1幅图像中的1个3×3区域,共9个像素点,用P1,…,P9标记,其中P1位于中心,P2在P1的正上方,P3,…,P9依次沿P2的逆时针方向排列。

如果P1=1(即黑点),同时满足以下4个条件,则删除P1(P1=0):

1)2≤NZ(P1)≤6;

2)Z0(P1)=1;

3)P2·P4·P8=0或者Z0(P1)≠1

4)P2·P4·P6=0或者Z0(P4)≠1;

式中:NZ(P1)表示以P1为中心的8个点的和;Z0(P1)表示以P1为中心的8个点,从正上方的点开始,按逆时针方向顺序进行排列,相邻2个点出现0,1(白,黑)的总次数。

对图像中的每个点重复上述步骤,直到所有的点都不可删除为止。水尺刻度细化的结果如图3 c所示。

3 基于Hough变换的水位量测

3.1 Hough变换

Hough变换[4]的基本思想是利用点、线的对偶性,将笛卡儿坐标空间的直线变换为极坐标空间中的点。图4 a中的直线是笛卡儿坐标系中的1条直线,如果用ρ代表直线距原点的法线距离,用θ表示法线与x轴的夹角,则经过Hough变换后可用如下参数方程表示该直线:ρ=x cosθ+ysinθ。

该直线在极坐标系中就是图4 b所示的点(ρ,θ)。笛卡儿坐标系中通过公共点的1簇直线(图4 c),映射到极坐标系中则是1个点集,这些点集构成1条曲线,正好是正弦曲线(图4 d)。

在笛卡儿坐标系中共直线的点(如图4 e中的(x1,y1),(x2,y2),(x3,y3),3点共线)映射到极坐标系中就是共点的1簇曲线(图4 f)。在图4 f中还可以看到这3条曲线有2个交点,这2个交点所对应的横坐标值即法向角的度数相差180°,对应到笛卡儿坐标系中就是同一条直线。如果令直线的法向角的取值范围为:0≤θ<π,其交点就只有1个。显然,Hough变换在不同的线和点之间建立了对应关系。

3.2 水位量测算法

由分析可知,Hough变换就是将(x,y)平面中的所有直线变换成(ρ,θ)平面的1簇曲线。统计变换域(ρ,θ)中这1簇曲线经过最多次的点,该点对应的就是1条直线。图5为2条直线y=3,y=5,θ细分为1°时的变换域(ρ,θ)的曲线图。

图5中,θ=π/2附近有2个点对应的直线累加值最高(该值就是其在(x,y)平面中所对应直线上的像素点的个数)。因此,可以认定,这2个点对应(x,y)平面中的的2条直线。在实际应用中,根据水尺中刻度线的长度,定义其像素点个数作为判定条件,以简化算法。例如,定义(ρ,θ)域中的点对应的直线累加值大于50时,认为该点对应2条刻度线。但是,试验发现由于曲线间的互相干扰及参数ρ,θ值对直线检测性能的影响,变换域(ρ,θ)中的一些点,尤其是累加值最高处的其他点对应的累加值也很高,也会被误认为对应1条直线,这样很容易造成同一条直线被重复计算。

因此,必须对Hough变换做实用性改进。具体做法是先找到变换域(ρ,θ)中1个满足条件的点(例如,其对应的直线累加值大于50),然后将该点及其附近点对应的累加值清零,以避免重复计算。

算法思想:首先找出变换域(ρ,θ)中对应直线累加值最大的点,该点就对应于(x,y)域中最长的1条直线,在原图像中将该直线删除。对剩下的直线再进行Hough变化,继续寻找变换域(ρ,θ)中对应直线累加值最大的点,再将该点对应于(x,y)域中的直线删除。依此过程,直至变换域(ρ,θ)中的点对应的直线累加值都小于设定值(如50)时,就认为已经没有要识别的刻度线了,这时统计出被删除的直线条数,即可获取水位值。

算法描述如下:

1)从原图像的(x,y)平面中找出1个黑点;

2)对通过(1)找到的黑点的直线利用Hough变换在(ρ,θ)平面绘制正弦曲线,每绘制1条正弦曲线,累加器加1;

3)在(ρ,θ)平面中寻找累加器最大值(如50)对应的点,如果找到,则该点就对应(x,y)平面的1条直线(刻度线),假设用n表示刻度线的条数,这时n+1,否则执行(5);

4)将找出的直线从原图像中删除,然后回到(1);

5)计算n的值,将该值乘以刻度单位即得出水面以上水尺的长度,水尺总长度(已知)与水面以上水尺长度的差即要量测的水位数据。

4 结语

本文研究的从水尺图像中获取水位数据的方法,也可以用来获取闸位数据,并且精度高(只受摄像机分辨率的影响),费用低,不需要太多的辅助设施。当然,这种水位获取方式在实用化过程中还有一些问题需要妥善处理。例如,现场可能会因雨、雾、阴天、夜晚等情况,导致光照不足,获取的水尺图像清晰度低,难以识别,这时,必须在现场安装照明设施以提高图像的清晰度。本文对刻度线的识别算法只适合水尺表面有轻度污染的情况,对严重污染还需要研究专门的识别方法或辅以人工清理。另外,针对实际应用中对水位数据采集实时性的不同要求,还存在个现场数字转换还是远程数字转换的问题。现场数字转换因现场不可能配置高性能的计算机,所以需要研究更高效的算法;远程数字转换对算法效率要求较低,但要远程传输视频或图像,因此需要配置高速、宽带的通信链路。

参考文献

[1]何斌,马文予,王运坚,等.Visual C++数字图像处理[M].北京:人民邮电出版社,2004:4-7.

[2]冈萨雷斯.数字图像处理[M].2版.北京:电子工业出版社,2005:18-20.

[3]马涛,余春暄.数字图像处理在指针式指示表读数识别中的应用[J].微计算机信息,2004,20(7):50-51.

获取数据篇8

随着互联网技术的快速发展与广泛应用, 全球互联网的各类专业网站上每时每刻都在上载更新着成千上万的各类新闻信息、行业观点、研究报告等庞大资讯。依靠从互联网上搜集、整理并编排相关行业信息, 就能构建相对较完整的专业动态信息网站, 进而提供相应的行业动态信息服务。但目前大部分行业动态信息网站中的互联网信息收集与整理都还依靠人工手动完成。这种方式虽然能够收集到具有较高质量的信息, 但需要花费大量时间频繁浏览相应资讯网站, 人工工作量很大。因而研究网络数据资源自动获取技术并投入行业系统应用, 对于高质量完成行业信息系统数据资源建设及今后资源的持续更新具有非常重要的意义。基于Eclipse可扩展开发平台[1,2], 采用JAVA及XML脚本语言, 研发了包括网络爬虫、数据抽取、文本智能分类技术在内的, 完整的网络数据资源自动获取技术, 并成功应用于全球油气行业动态信息系统Petro DIS。

1 关键技术

1.1 网络爬虫技术

网络爬虫 (Web Crawler) , 是一种按照一定的规则, 自动地抓取互联网上信息的程序或者脚本, 其定义有广义和狭义之分。狭义上指遵循标准的HTTP协议利用超链接和Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则囊括所有能遵循HTTP协议检索Web文档的软件。

网络爬虫不是一个简单的网页下载程序, 而是一个复杂的软件体系。该软件体系具有良好的框架结构和策略方法。网络爬虫往往有不同的用途和目的, 因此结构、策略和算法也有很大差异。在抓取网页的时候, 网络爬虫一般有两种策略:无主题搜索与基于某特定主题的专业智能搜索。其方案主要包括广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页, 然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。深度优先是指网络爬虫会从起始页开始, 一个链接一个链接地跟踪下去, 处理完一条线路之后再转入下一个起始页, 继续跟踪链接。

1.2 数据抽取技术

网络上数据资源的数据类型分为结构化数据和非结构化数据两种。结构化数据即行数据, 是存储在数据库里, 可以用二维表结构来逻辑表达实现的数据, 而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。本文所指的结构化数据的抽取功能, 主要是对一些商业数据库进行的, 其中的一些重要信息数据是以二维表形式在网页中展示, 由于数据一致性与完整性的要求, 需要人工借助模版编辑工具, 生成具有针对性的模版, 进行数据抽取。除了结构化数据以外, 抓取出的数据存在大量非结构化文档报告。这类数据是商业资源公司利用各种报告生成工具生成的, 其收集工作由非结构化数据抽取功能完成。

(1) 结构化数据抽取引擎

结构化抽取引擎的实现机理是利用通用数据查询引擎进行数据查询和转换, 设定查询结构和加载目标数据源之间的映射关系, 由抽取加载引擎进行加载。结构化数据抽取功能主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等模块完成。模版编辑器主要提供给用户生成用户定义模版功能, 模版主要给出爬虫抓取特定网站的动作规则。

(2) 非结构化数据抽取引擎

非结构化数据抽取引擎要求能够利用通用数据管理系统构建各种结构化数据表, 并设定非结构化文档的映射管理, 由非结构化数据抽取引擎进行数据抽取、清洗并加载到结构化数据表中。非结构化抽取引擎也用于将网络爬虫抓取的数据进行数据清理后, 在保证数据质量的前提下, 按照用户需求从中抽取结构化数据, 并把结构化数据存入数据库中。非结构化抽取引擎在保证数据质量的前提下完成从抓取数据到数据库内实体-联系模型的转换。

1.3 文本智能分类技术

目前文本自动分类的主流技术是基于统计机器学习理论的自动文本分类模型。该模型在文本形式化表示方面, 采用向量空间模型作为文本形式化方法[3,4]。对于所有的文档类或未知文档, 都可用空间中的词条向量: (T1, W1;T2, W2;…;Tn, Wn) 来表示 (其中Ti为特征项词条, Wi为对应坐标值, 即特征词条权值) , 从而将文档信息的表示与匹配问题转化为向量空间中向量的表示与匹配问题来处理。假设用户目标为U, 未知文档为V, 两者的相似程度可用向量之间的夹角来度量, 夹角越小说明相似度越高。

2 技术实现

基于网络爬虫技术、数据抽取技术和文本智能分类技术, 设计并研制了全球油气行业动态信息系统Petro DIS。该系统以自主研制的网络爬虫 (网络机器人) 作为网络数据抓取工具, 按设定时间自动到国内外著名油气行业专业信息网站上获取最新油气行业新闻资讯, 经过数据抽取引擎完成清洗整理后, 再以智能分类的方式归并到十一个信息类别中。这十一个类别分别是:宏观形势、国家动态、资产并购、公司动态、许可证、项目动态、勘探开发、油田动态、中游、下游、其他。

全球油气行业动态信息系统Petro DIS主要由网络爬虫模块、网页分析器、文本分类器组成, 如图1所示。其中网络爬虫用于得到目标页面链接, 获取并存储网页;已下载的网页经过网页分析器的结构化、非结构化数据抽取后, 自动分析出解析模板, 并且通过模版, 去除无用的噪声数据, 形成结果数据;结果数据经过文本分类器按照分类体系分类后, 存入全球油气行业动态信息库, 然后通过前台页面定制最终展示成全球油气行业动态信息网页。

2.1 网络爬虫模块

本系统实现的爬虫由HTTP下载模块, 链接分析模块和下载控制模块等三大模块有机地组成一个高效、完整的网页自动下载功能体系。HTTP下载模块利用HTTP网络协议下载, 获取并存储网页内容;链接分析模块能够提取网页内的超链接, 从而获得后续页面入口;下载控制模块控制网页访问次序、更新策略、访问队列调度等工作;下载控制模块采用下载模版控制抓取过程, 下载模版是个XML抓取脚本。这样在编写网页信息抽取工具时, 就不用担心网页格式的变化会影响到信息抽取的结果。因为整个抽取信息的部分都是通过配置对应的脚本实现的, 所以只要修改脚本就可以了, 不用更改程序代码。

2.2 网页解析器

网页解析器由结构化数据抽取模块和非结构化数据抽取模块组成。结构化数据抽取模块主要由网页分析器、用户定义模版库、模版编辑器、结构化数据抽取器等组成。具体的数据抽取过程分为:定义爬虫入口、定义数据的过滤规则、处理数据。定义爬虫入口主要给出要抓取网站的URL;过滤规则就是根据用户用xml标签定义的过滤规则从爬得的数据中筛选合适的内容;处理结果数据是把数据写入本地文件或存储。

非结构化数据抽取模块由网页分析器和解析模版库组成。网页解析器负责分析网页, 生成解析模版, 用解析模版来指导抽取数据;解析模版库用来存储已生成的解析模版, 以便重复使用。非结构化数据抽取过程和结构化数据抽取过程基本类似, 但对数据的过滤过程需要特殊处理。因为结构化数据均在同一页面或连续的表中, 可以直接获取, 而非结钩化数据由于往往夹杂着导航信息、广告信息、评论信息等噪声内容, 需通过导航页面获取地址并去除噪声内容才能抓取。按照待解析网页内容的不同可以将其分为两种类型, 采用不同的处理方式:一类是Hub型网页, 这类网页主要用来提供网页导航, 是超链接聚集的网页, 比较容易识别, 解析时只需提取出URL;另一类是主题型网页, 这类网页大多通过文字或图片描述一件或多件事物来表达一定的主题, 解析时除了需要提取出URL外, 还要提取出正文内容。本系统采用DOM树的分析方法[5,6,7]去除网页噪声内容, 通过机器自学习方式构建解析模板库来完成内容型网页正文内容的提取。

2.3 文本分类器

文本分类器的作用是把从互联网上抓取并整理后的每一个文档, 按照事先已确定的文档分类体系, 自动判断归并到对应类别中。分类文本分类器由分类体系、样本集、测试集及分类算法控制模块组成。分类体系、样本集、测试集要根据用户的需求来选取。在全球油气行业动态信息系统中, 用户希望收集石油行业类网页资料, 则分类体系应选用全球油气行业知识分类体系, 样本集和测试集可选用收集的相关类别的中英文文档且已经人工分类处理过的语料。在文本分类器的构造过程中, 特征的提取是关键步骤, 因而提取用户所关注领域的常见词组是数据准备中的一项重要工作。

分类算法控制模块采用自适应神经网络分类算法, 首先选择已分类的中英文文档组成训练样本集, 训练神经网络, 然后将已训练好的神经网络加载到分类器。文档标题训练神经网络的过程如图2所示:文档数据进入数据库后, 先截取文档标题, 并将截取的文档标题传入分词器, 对于中文和英文内容分别采用不同的分词器进行分词。分词结果进入分类器后, 调用神经网络进行训练。

3 全球油气行业动态信息系统Petro-DIS功能特点

作为油气行业中主要依靠网络数据资源自动获取技术构建并自动运营的网站信息系统, 全球油气行业动态信息系统Petro DIS在信息获取、信息分类、网页构建等多方面具有鲜明的功能特点, 实现了无人值守的信息网站构建与运行管理。

(1) 自动获取相关网站指定信息

根据油气行业的应用需要及世界范围内已有油气行业信息网站的新闻信息提供情况, 预先在系统中将国内外著名的油气行业专业信息网站定制到网络爬虫的抓取队列中并指定相应的抓取时间, 从而保证了系统及时获取最新信息。在实际应用中, 根据用户的需求, 还可以不断增加信息源网站及获取策略。

(2) 自动进行信息的专业分类

利用自适应神经网络分类技术, 对所获取的信息进行自动专业分类, 提高分类效率。虽然在系统运行初期, 系统自动分类准确率较低, 但通过定期的人工干预从而不断训练自适应神经网络, 通过自适应学习, 能够不断提高分类的准确性。

(3) 自动构建与更新网页

按照预先设计好的新闻栏目布局模板, 将不断获取到的已分类的新闻信息实时排放在对应栏目的最上部区域, 并根据栏目可视化范围自动剔除旧信息。如果希望改变页面布局与展示风格, 只需在系统中修改页面显示模板即可。

(4) 信息自动归档保存

由于所有信息均是从互联网实时抓取并整理获得, 所以每条信息都具有确定的日期信息。将所有信息 (每日) 按日期归档并保存在数据库中, 按照系统日历, 用户就能非常方便地查询任何一天的历史信息。

(5) 及时提供最新的油气行业动态信息

全球油气行业动态信息系统Petro DIS全天24小时不间断运行, 不断获取与提供全球范围内的最新行业信息, 保证了新闻信息的及时性。自研制成功并投入运行一年以来, Petro DIS系统已成为中石油公司油气行业动态信息的综合性来源之一, 产生了良好的社会经济效益。

摘要：人类社会现已进入了一个信息大爆发的新时代, 如何利用计算机新技术从互联网上自动获取特定主题信息并实时提供服务, 成为信息技术研究领域的热点之一。在网络爬虫、数据抽取、文本智能分类等关键技术研究及实现的基础上, 研制集成了全球油气行业动态信息系统PetroDIS。该系统在信息获取、信息分类、网页构建等多方面做到了自动化, 极大地提高了信息收集效率。

关键词：网络爬虫,网页分析,智能分类,自适应神经网络,油气行业动态信息系统

参考文献

[1]敬晓芳.解析Eclipse和各插件的关系[J].电脑编程技巧与维护, 2010 (2) :24-25.

[2]石磊.EcliPSe:一个用于高性能并行模拟的系统[J].软件, 1992 (6) :440-462.

[3]Yang Yiming.An evaluation of statistical approaches to text categorization[J].In Journal of Information Retrieval.1999, 1 (1/2) :67-88.

[4]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中科院计算所博士学位论文, 2000.

[5]刘晨曦, 吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报:自然科学版, 2007, 25 (2) :149-152.

[6]欧健文, 董守斌, 蔡斌.模板化网页信息的提取方法[J].清华大学学报:自然科学版, 2005, 4 (S1) :1743-1747.

获取数据篇9

一、改进器材,科学获取数据

在学生的探究活动中,有许多因素会影响学生实验数据的获得,如实验仪器的不精密、实验材料的不典型以及周围环境的影响等,都会造成学生获取的实验数据不精确。在此数据基础上的解释与论证就会偏离预定目标,与建构核心概念背道而驰。

1. 改进仪器,避免估值影响数据

小学科学中有很多测量是需要学生进行估计的,如量筒测量液体的体积、玻棒式温度计测量液体的温度、弹簧测力计测量力的大小等,学生在利用这些仪器进行测量、记录数据时会有估上估下的误差值,单独一个数据或两个数据对比明显的情况下,不会受影响。但如果是一组连续的数据且数据变化不大的情况下,估值的上与下就会对数据的分析与解释造成直接的影响。

“热起来了”一课中,教材安排的是采用玻棒式温度计测量一本字典的温度,它只能精确到1摄氏度,每一小格之间的0.1至0.9摄氏度的值是需要学生来估计的,这个值的大小有人为的主观因素,甚至同一位学生在前后几次的估值中都有差异,这就使得个别小组在记录的数据中出现了“裹了衣服后温度升高了零点几摄氏度”的情况,这为后面基于数据的解释与推理带来了麻烦。

温度能否不用估计就直接显示出来呢?基于本课核心概念建构的需要,我们对仪器进行了升级,用数字温度计代替玻棒式温度计,解决了学生人为估值影响数据的问题,也符合新科技产品走进科学课堂的理念。使用数字温度计优势明显:一是灵敏度提高,节省了温度变化的等待时间;二是误差更小,数据更准确;三是温度不需要估算,消除了人为估值对数据的影响,更便于学生在excel表格中直接输入与呈现,为后续的论证环节做好了铺垫。

2. 改进材料,防止他因干扰数据

受年龄特点的影响,小学生在探究活动中往往对探究材料特别感兴趣,领到材料后,经常会不自觉地把弄一些材料,如对材料进行“亲密接触”,而这些材料又对“接触”比较敏感的话,就会对实验数据产生干扰。

“热起来了”一课中部分小组在领到温度计以后不是先记录起始温度,而是用手握住了温度计下端的玻璃泡,致使温度升高,这时再记录起始温度,这样得到的数据显然不科学。特别是在测量几分钟内的温度变化过程中,有些同学把温度计取出来放进去反复操作,致使数据上下波动。这就导致了好多组数据出现温度升高的现象,也成了这节课上数据难处理的一大症结。

除了在实验前对学生的操作进行强调以外,可以改进选用的材料。在本课中,可用一瓶接近人体温度的温水来模拟身体,代替教材中安排的字典。数字温度计一开始就插入瓶中,学生领到材料后,主观上不容易接触到温度计敏感的下部。由此,困扰教师的干扰数据问题迎刃而解。

二、借助图表,直观呈现数据

在学生获取实验数据之后,把数据呈现出来以供解释与论证尤为重要。常见的方式有三:一是学生根据记录表读、报数据;二是小组成员把记录表在实物投影仪上边展示边宣读;三是各组把数据填写在教师准备的汇总表中。显然,第一种方式失去了数据的价值,第二种方式比较常见,但缺乏全班整体数据的横向比较;第三种方式相对比较理想,但需要教师准备一张大的汇总表,且不利于数据的直观处理。在数字化时代,我们完全可以利用excel等软件以数据图表的形式呈现,同时可以对数据进行直观处理。

1. 借助柱形图呈现数据整体

Excel中有个数据透视图功能,经过简单的设置就可以将数据汇总并以我们需要的图表形式直观呈现。“热起来了”一课采用柱形图的方式直观形象地呈现全班所有小组的实验数据,效果比较明显。数据的输入、呈现与学生的探究活动同步,在学生用数字温度计测量温度的过程中,每获得一个数据,各组就可以指定一名同学到台上电脑图表中输入数据,实时呈现在大屏幕上。有了全班同学的无形监督,避免了个别同学对数据的任意篡改。同时,学生在测量温度的间隙也不再无事可干,可通过大屏幕随时观察各组同学测得的实时数据,初步进行分析与思考。全班同学实验完毕,数据也同时输入完毕,一张全班各组数据的柱形图便呈现在大家面前。(图1)

此图充分利用了excel数据处理模块,直观形象地呈现了12组学生的实验数据,使学生面对全班大量的数据不再眼花缭乱,通过图形与具体数据的结合,有助于学生对数据的观察与分析、推理与论证。

2. 借助折线图呈现数据趋势

有时候我们并非需要对所有数据进行呈现与对比分析,而是显现数据变化的趋势。这时,我们就可以借助折线图来达成目标。“热起来了”一课中学生在对数据进行整体分析后发现,衣服不能给身体增加热量,同时发现:裹了衣服温度反而还在降低,那衣服还有作用吗?而这个问题教师有预设,在学生探究活动中事先在其中一个小组增加了一个对比实验,这时就可以把这个小组的对比数据以折线图(图2)呈现,使学生对裹了衣服和没裹衣服的温度变化趋势一目了然,也使学生对保温的概念有一个新的认识:保温并不是能一直保持温度不降,而是减缓热量的散失,使温度降低的速度变慢。

三、利用数据,深入剖析论证

科学获取数据并借助图表直观呈现,其目的是帮助学生建立自己的观点,用事实说话、用证据解释,培养实证精神。因此,在交流研讨环节,教师要组织学生充分利用数据来说话、来解释,使研讨交流成为学生对话的平台,成为学生推理论证的契机,在个体到集体的论证中,思维得到发展,概念得以完善与提升。

1. 自我分析,个体论证

个体论证是本人或本组成员对自己或本组的实验数据分析与解释、交流与分享的过程,是学生基于自己的观点寻求证据进而完善自己观点的过程,有助于学生从证据上升到解释,促进思维的发展。

“热起来了”一课中,全班学生在探究活动前就已经借助生活经验与感受建立了两种不同的观点:“衣服能给身体增加热量”和“衣服不能给身体增加热量”。但这两种观点都建立在学生主观感受的基础上,所以都成立,谁也说服不了谁。于是教师应引导学生要用事实来说话、用证据来解释。“事实”和“证据”就在学生实验中观察到的数据里。因此,研讨交流的首要任务就是要组织学生开展个体论证,要让学生观察图1中自己小组的数据,对起始温度、1分钟后的温度、2分钟后的温度、3分钟后的温度等几个数据作纵向的观察与分析,用数据来佐证自己的观点。在观察分析中,有些小组发现自己数据中的四个温度没有一个上升,说明衣服不能给身体增加热量,与当初的观点一致;而起初持不同观点的小组也发现自己的四个数据没有上升,与当初的观点不一致,从而产生了认知冲突。在这里,是坚持自己原先的观点,还是尊重事实,尊重数据,体现了科学态度与精神的渗透与培养。

2. 全班互动,集体论证

在个体论证的基础上,教师组织学生开展集体论证,让全班同学对其他小组的数据进行比较分析、质疑批驳或解释评价,通过不同观点的相互“交锋”,产生思维碰撞,在实现从个体表征到集体建构的过程中理解科学概念和科学本质。

“热起来了”一课,教师一方面要求学生对自己的数据进行分析论证,另一方面则要求他们对其他小组的实验数据进行观察。这时,有些同学就会关注一些特殊的数据,并提出自己的分析、质疑与推理。在此基础上,教师还应引导学生从全班的角度观察数据,从上升、下降或者基本一致几个方面分析数据。学生很快发现,图1中没有一个小组的温度上升,说明了衣服不能增加热量。同时还发现绝大部分小组数据有下降的现象,这在学生的意料之外,更促使学生去进一步分析原因,去联想生活实际来思考。在相互的交流论证中,知道了温水在不断地向外界散发热量,而衣服只是起到了保温的作用,使温度下降的速度减慢。这样,学生的汇报交流就不再是数据的简单呈现与结果的主观臆断,而是一个不断对话、交流的理性过程,更注重概念建构与思维发展的有效融合。

浅谈数据挖掘技术与用户知识获取篇10

随着信息技术的迅速发展, 数据库的规模不断扩大, 从而产生了大量的数据。为给决策者提供一个统一的全局视角, 在许多领域建立了数据库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息, 而传统的查询、报表工具无法满足挖掘这些信息的需求。因此, 需要一种新的数据分析技术处理大量数据, 并从中抽取有价值的潜在知识, 数据挖掘 (Data Mining) 技术由此应运而生。数据挖掘技术也正是伴随着数据库技术的发展而逐步完善起来的。

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程, 这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程, 它是一门涉及面很广的交叉性新兴学科, 涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术, 其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理, 并从中提取辅助决策的关键性数据。

2 数据挖掘的常用技术

2.1 关联分析法。

从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物, 并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定, 用关联找出所有能将一组数据项和另一组数据项相联系的规则, 这种规则的建立并不是确定的关系, 而是一个具有一定置信度的可能值, 即事件发生的概率。关联分析法直观、易理解, 但对于关联度不高或相关性复杂的情况不太有效。

2.2 人工神经元网络 (ANN) , 是数据挖掘中应用最广泛的技术。

神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集, 从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果, 而且可以处理类别和连续变量, 但神经元网络不适合处理高维变量, 其最大的缺点是不透明性, 因为其无法解释结果是如何产生的, 及其在推理过程中所用的规则。

2.3 决策树 (DT) 是一种树型结构的预测模

型, 其中树的非终端节点表示属性, 叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支, 形成决策树。决策树一般产生直观、易理解的规则, 而且分类不需太多计算时间, 适于对记录分类或结果的预测, 尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。

2.4 遗传算法 (GA) 是一种基于生物进化理论的优化技术。

实际上遗传算法是模仿生物进化的过程, 反复进行选择、交叉和突变等遗传操作, 直至满足最优解。遗传算法可处理许多数据类型, 同时可并行处理各种数据, 常用于优化神经元网络, 解决其他技术难以解决的问题, 但需要的参数太多, 对许多问题编码困难, 一般计算量大。

3 数据挖掘技术在用户知识获取中的应用

网络的发展为用户提供了多种新的信息服务, 但当前因特网信息服务中更多的是单向、被动的服务模式。数据挖掘技术的应用, 使因特网能根据用户的需求采取更主动、更有针对性的服务, 并且可以建立一种个性化的信息服务系统。

3.1 用户知识概述

用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述, 用户模型可以模型化用户的特点、背景知识和经验, 使用特定知识获取方法识别和描述用户的各种特征。

3.2 用户知识获取方法

3.2.1 用户知识的关联分析法

对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后, 如何利用数据挖掘技术对这些数据进行处理, 以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业, 比如在超级市场的销售管理中, 条码技术的发展使得数据的收集变得更容易、更快捷, 从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。在搜索页面的设计中也可运用用户的点击率、内容及相关页面, 了解用户的偏好和习惯, 并用关联分析的方法来获取潜在用户知识, 这有助于决定搜索页面的设计和相关知识的链接。

3.2.2 组合分析法

由于用户的兴趣是时常变化的, 用户行为信息所反映的用户信息需求往往是多条线索混合在一起, 这给识别信息需求带来了很大的困难。这种问题的解决, 一般需要预先指定一个主题, 但这就增加了用户的负担, 而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量, 并从中分析出用户的需求偏好, 服务器可根据用户的需求偏好进行主动信息推荐。

3.2.3 分类填表法

用户知识可以由用户主动填写表格来获取, 用户设定信息需求可以通过设定关键词或主题词来完成。表格的设计可以采用预先分类的方法, 将用户的记录分配到已定义好的类中去, 从而构造出用户信息的分类模型, 利用此模型可将用户数据库中的数据映射到相应的子集中, 进行数据预测。这是一种简单实用的方法, 但不足之处是难以制作一个完整的分类调查表, 将用户的真实意图全部表达出来。

3.2.4 智能代理方法

现在常用的浏览器中, 有一个历史菜单栏, 当用户在地址栏中输入网址进行浏览时, 系统会自动将这个网址记录下来, 作为上网的历史记录存放在系统中, 方便用户以后使用。

利用智能代理 (Intelligent Agent) 监视用户信息查询过程, 是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息代理 (Information Agent) , 信息代理将用户和浏览时的相关信息不断传送给远端的服务器, 服务器将信息进行数据取样和数据调整, 利用强大的搜索能力和遗传算法反复学习找到最优解, 使得用户信息的提取更加量化, 问题更加明确。利用用户在浏览器上存储的书签 (Bookmark) 获得用户信息需求的方法属于“监视用户”类。相对浏览历史记录而言, Bookmark对考查用户的信息需求更有价值。如果说浏览历史只是一种对上网情况的“自然”记录的话, 那么Bookmark却是用户对历史记录进行比较、筛选后的结果。Bookmark系统采用HTTP协议实现信息的自动搜集。系统通过监测用户信息记录获得信息需求, 信息分类器对搜索来的信息进行自动分类, 装入信息数据库;信息过滤器根据用户提出的信息推荐请求, 对数据库中的信息进行过滤并将合适的信息提交给用户;信息评价器根据用户对推荐信息作出的评价对系统进行优化。运行结果表明Bookmark系统具有良好的信息记录、推荐和共享功能。

参考文献

[1]郝先臣.数据挖掘工具和应用中的问题[J].东北大学学报 (自然科学版) , 2001 (2) .

[2]刘海虹, 刘伯萤.数据挖掘技术[J].丹东纺专学报, 2001 (1) .

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【获取数据】相关文章：

网络数据获取07-15

数据包获取08-07

实验数据的获取与处理06-12

地震数据获取系统提高信息采集方法探析09-12

车载三维数据获取与处理系统设计与实现06-23

浅谈Flash从外部容器获取数据的途径及方法09-12

获取能力06-13