数据质量评估方法

2024-08-06

数据质量评估方法(共9篇)

篇1:数据质量评估方法

浅谈城镇住户调查数据质量评估方法

抽样调查的实质主要是通过样本指标推算总体指标,产生一些误差是必然的;因此,样本的选择和抽取方法,对于抽样的推断结果有着至关重要的作用。同时,合理地评估样本数据既是非常重要的,也是必要的。在我们实际的工作中,对于抽样调查方法等工作比较重视,而对抽样样本的评估缺少全面系统的分析。本文结合城镇住户调查统计工作,对城镇住户数据质量评估内容、标准和方法,提出浅薄的看法。

一、建立数据质量评估制度

数据质量是住户调查工作的根本,而数据评估是提高数据质量的重要手段和环节。为切实提高城镇住户调查能力、提高调查数据质量、提高统计公信力,各级调查队必须建立数据质量评估制度,使得数据评估常态化、制度化、规范化,提高数据评估审核的科学性、客观性和可操作性。

二、数据质量评估标准

城镇住户调查数据评估以提高城镇住户调查数据的科学性、代表性和真实性为主要目的,以《中华人民共和国统计法》和城镇住户调查方法制度为依据,按照“科学、及时、可操作”的原则,高度关注城镇住户调查的样本代表性,使得调查样本能够真实地反映城镇居民的总体结构,这是保证住户调查数据质量的起始环节。同时,调查数据能准确反映城镇居民生活的实际情况以及一段趋势内城镇居民生活的变化情况,这是城镇住户调查的根本任务,也是提高数据质量的重要检验手段。

三、数据质量评估办法

(一)样本代表性评估

#样本代表性是住户调查工作的基础,样本结构存在问题将直接影响数据质量。一般情况下抽样的总体分布大部分是正态的或者接近于正态的,或者只要是抽样样本均值的分布呈正态的或者接近于正态分布的,就认为符合抽样理论要求,可以进行样本抽样,进行总体的推断,这是前提的条件;但是有一些总体分布非常不均匀,分布不合理,明显属于偏态。这主要是由于总体分布不均匀,或抽样方法不当,导致样本的分布不合理,或采取人为随机的方式抽取一定的比例时,很容易造成样本分布的系统偏差性。数据质量评估应首先检查各地是否按照城镇住户调查制度抽选和轮换样本。评估样本代表性主要有两个内容:一是城镇住户大样本调查与常规调查样本的代表性评估;二是非正常换户后对新换户样本的代表性评估。评估时重点注意以下方面:

⒈平均户规模及家庭类型的代表性。户规模与收支指标变动程度直接相关,要利用全面统计资料(人口普查、户籍统计、劳动工资等)和大样本调查资料进行样本的一致性分析,检查常规调查户中平均户规模及不同规模类型家庭的构成与总体是否一致。尤其要重视样本轮换及非正常换户前后平均户规模及家庭类型构成的变动情况。⒉人口及就业结构的代表性。要利用全面统计资料和大样本调查资料,检查常规住户调查的家庭人口结构与总体是否一致,就业人员的就业情况、行业、职业等构成与总体是否一致,就业人口、离退休人口的比例与总体是否一致。

⒊主要指标的计算。计算样本轮换及非正常换户前后人均可支配收入、人均消费性支出、家庭人口三项指标的平均值、方差、臵信区间和抽样误差。指标变动幅度较大的,要找出原因及解决办法。

(二)数据匹配性评估

进行数据匹配性评估时,应高度关注城镇住户调查数据内部的逻辑性和科学性,加强对同一时期内相关数据和历史数据在宏观层面上的把握,强化数据匹配性评估。评估分析主要从以下几方面着手:

⒈加强指标内部的对比验证。一是进行城镇住户调查历史数据纵向比对,通过观察历史数据的变动规律,分析当期主要收支指标变动幅度与全省或全国数据相差是否在±3%范围内,重点对同比增幅(或降幅)较大的数据进行评估审核;二是对收支数据的平衡关系、收入增长幅度与支出增长幅度是否匹配、分项收入的增长趋势是否匹配等内部指标的对比验证。

⒉关注同一经济带的数据比对。由于经济社会的发展存在地区差异,同一经济带的发展趋势存在可比性。比较主要收支指标的发展速度时,可结合所属同一经济地带其他地区的相同指标及其历史数据进行趋势比对。⒊注重对衍生指标的分析。对恩格尔系数、平均消费倾向、基尼系数等重要衍生指标进行趋势分析,重点关注这些指标的变化趋势是否能准确地反映本地经济发展趋势,和历史数据的走向是否衔接。要注意和同类型地区的相同指标进行比较,观察指标数值是否符合客观实际。

(三)数据协调性评估

数据的协调性评估遵循“科学、及时、可操作”的原则,充分利用其他统计指标及相关部门的行政记录对城镇住户调查数据进行全面的协调性分析。进行数据协调性分析时,应加强对同一时期内相关统计专业数据、部门数据在宏观层面上的把握,强化数据协调性评估。评估分析主要从以下几方面着手:

⒈重视与相关统计专业指标进行横向比对。住户收支数据应与国内生产总值、就业人员工资、银行现金收入中城乡个体经营收入、社会商品零售额等宏观经济指标的水平和增长趋势基本一致。并利用数据评估分析表提供的GDP、城镇职工工资水平、城镇单位从业人员数量、社会商品零售总额、财政收入、城乡储蓄存款变动额、银行现金收入中城乡个体经营收入等相关指标进行评估。住户调查中的职工人均工资及补贴收入要与劳动工资中的劳动者人均劳动报酬相比较。比较消费性支出与社会消费品零售总额增幅,分析变动幅度是否协调。

⒉加强与其他部门行政记录进行同期对比。如离退休人员养老金收入要与劳动和社会保障局提供的社会养老保险支出和人事局提供的机关事业单位离退休人员养老金进行比较。比较人均可支配收入和个人所得税增幅的变动趋势是否协调等。

⒊规范协调性评估过程。进行协调性评估之前,要分析对比指标的定义、调查期、覆盖范围、口径是否一致。如果不一致,则分析两者的差距及其产生原因。计算对比指标的同比增幅,观察指标数值与历史数据是否协调,结合当地出台的新政策、新规定,分析增幅差异的内在原因。

(四)多阶段数据评估

通过采用趋势分析、对比分析、影响因素分析、相关指标分析、逻辑性评估、基础性评估等方法对统计数据质量进行评估,从而提高统计数据质量。主要做法:

1、在做好每月报表检查审核的同时,按照每季一小评、半年一大评的数据质量评估办法对城镇住户调查专业数据质量进行认真细致地评估。

2、一季度和三季度末进行科室内评估。

3、半年和全年进行综合评估,邀请队领导,队综合、消价、限下商业等相关专业人员,共同对调查重要指标进行定性评估和定量分析,提高调查数据的科学性。

四、评估后数据的修正

若数据评估发现某地区数据质量存在不匹配、不协调现象,该地区须在规定时间内提交详细的分析说明报告,经上级核准以确定是否修正其(季度)数据。

1、原因的分析依据样本设计、抽样过程、开户情况、样本的重要指标代表性、较大异常值的影响、数据处理中误差等内容分析寻找原因。

2、数据的修正必须本着问题出在哪里修正哪里的原则进行。样本差距多少,调整多少;实地调查有误,要及时组织重新复查,解决漏报或错报的问题;对于属实的异常值,要做平滑处理,并作好台帐,以备检查。

3、对于收支指标变动较大的,国家局、总队、市队要求需要做出评估的,必须在要求时限内上报数据评估分析报告。对县(市)评估发现的数据问题,县(市)队不能予以详细的有说服性的评估分析,与发展趋势相违背的,市队将保留其原始数据作为历史资料,并核定出可比增幅,作为提供党政机关使用的资料。

篇2:数据质量评估方法

遥测数据质量评估方法研究与应用

针对遥测数据质量评估问题,采用模糊层次综合分析方法,建立了数据质量评估模型,并详细论述其评估思路和应用步骤.试验结果证明,该方法有较好的适用性和实用性.

作 者:张东 吴晓琳 ZHANG Dong WU Xiao-lin 作者单位:92941,部队,辽宁葫芦岛,125000刊 名:飞行器测控学报 ISTIC英文刊名:JOURNAL OF SPACECRAFT TT & C TECHNOLOGY年,卷(期):28(6)分类号:V557.3关键词:遥测数据 质量评估 模糊综合评价 层次分析法

篇3:浅析统计数据质量评估方法

1 统计数据质量的内涵

统计数据作为一种统计产品, 在信息化时代中占有至关重要的地位, 而统计数据质量概念的内涵也越来越丰富。传统的统计数据质量只包括统计数据的准确性, 而用来衡量准确性的标准就是统计估计中的误差。在如今市场经济迅猛发展的环境下, 准确性已经不再是衡量统计数据质量的唯一标准。统计数据作为统计产品, 必须根据用户的需求去判断其质量, 应该充分考虑统计数据提供的信息能否满足用户的需求。因此, 统计数据质量的内涵必须具有一定的综合性。统计数据质量是一个相对的属性概念, 其标准会根据用户的不同和时间的不同发生变化, 因此, 统计数据质量是指统计信息满足用户需求的程度, 其内涵应该包括以下内容。

1.1 完整性

应该确保相关数据无任何缺失, 从而确保有足够的深度和广度去满足研究的需求。

1.2 有用性

有用性具体是指数据本身的利用价值以及它的使用给用户所带来的利益程度。数据所提供的信息必须是用户需要的, 并且要具有一定的利用价值。此外, 有用性还应该包括安全问题, 也就是说数据的使用权应该受到一定的限制, 从而确保数据的保密性。

1.3 时效性

对相关的研究来说, 数据必须是最新的。时效性是判断统计数据是否满足用户需求的重要标准, 相关数据必须在用户作出决策之前提供给用户, 这样的数据对用户来说才是有利用价值的。

1.4 准确性

数据必须具备准确性和可靠性, 并能有效地反映实际情况。如何判断准确性, 主要决定于目标值和统计估算值之间的差异程度, 统计误差越小则说明准确性越高。数据的准确性还具体包括表述的准确性和一致性, 准确性就是对数据的描述语言应该满足准确和简洁的标准, 而一致性则是数据集内部、前后期以及其他数据来源和统计框架之间必须保持相互一致。

2 统计数据质量的评估方法

2.1 从核算角度进行的评估

从核算角度对数据进行评估, 首先要以被评估指标要求的核算方法为基础, 并深入分析指标核算中存在的问题及其原因, 然后充分利用现有的资料进行重新估算, 通过估算结果去检验官方估计值。又通过从核算角度重新对统计数据进行核算的方法也存在一些问题, 例如, 对相同的数据使用不同的估算方法, 估算的结果会存在很大的差异, 如果没有准确的信息, 就很难解释这种差异。此外, 由于缺乏和基础数据有关的信息, 因此, 在估算过程中必须通过建立假设进行估算, 这样很可能会造成估算结果出现偏差, 从而影响估算结果的准确性。虽然此方法存在一些问题, 但是只要严格按照相关规范对指标进行重新估算, 就可以有效地检验官方的统计数据, 同时可以针对该指标的参考提供相应的统计数据, 因此, 对于宏观统计数据质量评估而言, 此方法更具规范性。但是, 由于宏观统计数据的估算存在较大的复杂性, 而且收集数据的难度较大, 因此, 此方法只适合专门的研究人员和机构使用。

2.2 从误差的角度对数据质量进行评估

误差是数据质量问题中最为常见的, 所谓的误差就是客观的社会经济现象实际的数量特征与统计数据之间存在的差距。在现实中没有哪些数据是绝对准确的, 因此, 只能将精确度作为判断数据的标准, 如果精确度能满足社会经济现象数量规律以及数量特征的需要, 就可以判断此统计数据是准确的。然而, 误差的大小是决定数据精确度高低的关键, 因此, 从误差的角度对数据质量进行评估的方法可行性较强。统计数据中存在的误差具体包括抽样误差以及非抽样误差。在进行样本推断的过程中, 抽样误差是无法避免的, 由于其本身并非错误产生的结果, 且目前对抽样误差的研究已经取得了较高的成果, 因此, 只要成功的设计出样本的估计量, 就能得出该估计量的误差公式。除此之外, 其他所有的误差都属于非抽样误差。目前有两种方法可以判断非抽样误差, 一种是针对估计值建立起总误差模型, 并对非抽样误差在总误差中的份额大小以及其的具体数值进行测算, 但此方法在理论和实践中都存在较大的复杂性, 且成本较大。针对这种情况, 相关学者研究出了另一种方法:先对原始资料中是否存在失真资料进行判断, 并找出这些失真资料, 然后进行必要的整理和修改, 以避免误差的出现, 从而确保统计数据的质量。从误差角度对数据质量进行评估的方法适用于检验和控制原始调查数据的质量。随着抽样调查技术的应用和发展, 此方法在原始数据质量的评估中发挥着非常重要的作用, 但是, 针对计量误差的检测, 此方法还有待进一步的完善。

2.3 统计数据质量的逻辑性评估方法

2.3.1 基于相关性的逻辑性评估方法

目前, 有很多社会经济现象在数量上形成了一种相辅相成的关系, 当某个社会经济现象出现数量上的变化时, 也对其他的社会经济现象的数量造成直接的影响, 而且在生产技术条件达到一定标准时, 反映现象的不同指标之间保持着较为稳定的关系。基于相关性的逻辑性评估方法, 具体是指在相关性较高的指标中, 结合指标之间存在的关联, 用已经确定的正确指标给出被评估指标的评估意见, 如果各指标之间存在的关系出现大幅度的变动, 就可以基本判断出被评估指标存在质量问题。此方法是以指标的弹性系数、各指标的比例关系以及总体指标和部分指标的结构关系等条件为判断依据, 同时也可以采用主成分分析以及回归分析等计量方法。在对统计数据质量进行评估的过程中使用此方法时必须注意一些问题:各指标之间存在的关系并不会永远保持稳定的状态;必须确保和被评估指标相互联系的统计数据具备可靠性;和被评估指标相互联系的指标一般有很多, 而根据不同的相关指标得出的判断结果应该是相同的, 如果根据不同指标的变动来判断被评估数据的质量, 得出的判断结果应该完全相反。

2.3.2 基于规则的逻辑性评估方法

基于规则的逻辑性评估方法具体是指将一些已经通过专业审核的相关的统计数据资料进行集中, 然后从总体上对各项数据之间的逻辑性和平衡性进行检验。逻辑平衡审核评估方法主要分为几种:相关平衡方法具体是指检查一些存在大于、小于以及等于关系的指标, 如果检查结果出现异常, 就可以基本判断数据存在错误;利用使用和生产的平衡关系进行评估的方法, 具体是指判断一些有着明显内在关联的指标, 尤其是使用和生产之间存在平衡关系的指标存在的误差是否在合理的范围内;同项相等的方法具体是指判断相同的指标在不同的标准上产生的数据是否一样;差额平衡法具体是指根据不同增减关系的数据, 判断运算结果是否平衡。基于规则的逻辑性评估方法适用于原始调查资料和数据汇总, 但是应该注意的是此方法只对存在逻辑平衡关系的数据有效, 虽然使用计算机也可以检查和修改不同数据间存在的逻辑性错误, 但是针对原始数据中庞大且复杂的非逻辑平衡的数据, 要做出准确地判断存在很大的难度。

3 结论

综上所述, 由于影响统计数量的质量因素较多, 而且这些因素存在于数据生产的各个环节, 因此, 统计数据的质量评估存在一定的复杂性。本文分析总结了几种评估方法, 并对每个方法的特点和应用做了详细阐述, 在对统计数据进行质量评估的过程中应该根据统计数据的使用对象以及类型, 选择合适的评估方法, 从而正确的判断统计数据的质量。

摘要:随着我国社会经济的快速发展, 统计信息在决策中发挥着至关重要的作用。统计数据质量作为衡量经济发展水平和规模的重要标准, 近年来已经成为相关学者们的重点研究对象。统计数据的质量决定着宏观经济决策是否科学, 也对社会科学研究的研究结果有着非常关键的影响。因此, 如何对统计数据质量作出正确的评估, 是目前相关学者们的共同目标。本文重点分析总结了几种统计数据质量的评估方法。

关键词:统计信息,统计数据,质量评估,方法

参考文献

[1]胡安荣, 王光彩, 等.基层统计数据质量控制研究[J].统计制度方法研究, 2009 (4) .

[2]邵建利, 丁玲丽.统计数据质量控制和评估机制的研究[C].贯彻落实科学发展观推进上海统计改革与发展优秀论文选编, 2005.

[3]黄秉成, 孙宗进.统计调查数据质量的甄别与控制[J].上海统计, 2010 (1) .

[4]成邦文, 石林芬, 杨宏进.统计数据质量检查与异常点识别的模型与方法[J].系统工程, 2001 (3) .

[5]裴万辉, 傅德印.国外关于统计数据质量研究的综述[J].财经问题研究, 1998 (8) .

篇4:基于统计数据质量评估方法的研究

[关键词]统计数据质量;评估方法;逻辑检验;优缺点分析

统计数据作为信息的重要载体,随着社会信息需求的不断加大,相关领域对于统计数据的质量要求也逐渐提高。统计数据质量的高低不仅关系着经济的顺利发展,更关系到相关行业的重要决策。就目前我国统计数据质量评估还存在的问题来看,有必要对现有的统计数据质量评估方式做一个系统的整理和提高。下文就我国现阶段统计数据质量的评估现状展开分析,就几种评估方法进行改善研究。

一、现阶段我国统计数据质量评估现状

统计数据质量反映的是一个国家或者一个地区社会经济活动的成果和相关记录,是社会经济问题研究的基本依据。因此,统计数据质量的高低不仅关系到经济发展的顺利与否,更影响着各项决策的实施。所以,确保统计数据质量的准确性和可靠性对于统计数据质量工作有着重要的作用。就我国目前的情况来讲,对于统計数据质量评估还较为滞后,就其原因主要就是因评估方式和方法落后、不合理、应用不恰当。统计数据质量的准确性不仅要求统计人员要坚持客观性,保证统计过程的准确性,杜绝造价、瞒报和谎报等情况;更要确保数据统计方法的有效性,在对统计的数据进行抽样设计、过程控制以及统计评估的过程中,应保证其科学合理性,并在可信的数据收集基础上,加量保证统计数据与经济现象无限接近。

近年来,伴随着统计数据分析行业的快速发展,统计信息所涉及到的领域和行业信息逐渐复杂起来。例如一些金融业、医疗行业和工商管理行业的运用都对统计数据质量有较多的关注。从宏观的角度来看,统计数据是国家宏观调控和管理的手段;从微观上,也是企业管理与决策的重要依据。然而实际发布的数据与公众心中的需求还是存在一定的差距,这不仅给市场经济传递了错误的信息,更可能妨碍社会发展。

二、基于统计数据质量评估方法的几种方法分析

1.逻辑关系检验法

所谓逻辑关系检验法就是以政府的统计指标体系为主,包含各个统计指标体系之间的包含、恒等相关内在逻辑关系的判断标准,以实现对统计数据可信度的检验。逻辑关系检验法主要包括比较逻辑检验法、相关逻辑检验法两种,下面我们以相关逻辑检验法为主进行探讨。相关逻辑检验法是按照逻辑关系与其紧密联系的客观社会经济现象来决定的,一方面,总量指标之间存在着较为稳定的比例和比率关系。 也就是说,以此来计算出来的相对指标应在特定的范围里面规定其取值。另一方面,总量指标的变动趋势之间相同程度同向或者反向的一致性,就是说各自增长率之间应该在大致的方向和幅度之间保持一致性。将其作为一种传统的检验方法来进行操作,较为简单易懂,因此逻辑检验方法对数据可信度上的初步检验有着广泛的使用率。

2.计量模型分析法

计量模型分析法主要以建立经济模型基础,对指标的数据质量进行评估的一种评估方法,主要分为模型构建、评估、分析等几个步骤。首先,模型的构建就是计量模型的分析法中的关键不走,而要构建一个合理的统计数据质量评估模型,这对于建模者也有一定的要求。传统的回归模型主要是依照理论分析来确定数据之间的经济现象复杂关系,而如果利用经典时序模型来对历史指标数据进行深入、仔细的考查就能有效的指出其变化规律;另外,运用面板数据模型能有效的刻画出宏观经济现象之间的复杂关系,更能描述出不同个体之间在不同时期的差异。此外,科学合理的模型估计和分析是建立模型后得到准确可信数据的关键环节,因此,我们要找到可用性、适用性以及有用性较高的模型构建,以保证拥挤数据的可信度和准确度。

3.核算数据重估法

所谓核算数据重估法就是从统计核算的角度上对特定的统计指标数据进行重新估计,以提高相关指标的数据质量评估方法的效率。评估的基本思路主要分三步,包括以待评估统计为依据,通过分析找出待评估统计指标在实践中存在的问题等几个步骤;挖掘现有资料,采取针对性的替代数据和运用规范来评估统计;重新估计统计指标参数,对官方统计指标数据的准确性进行评估。

三、 结语

总之,统计数据质量管理是一个涉及梁宇多、研究复杂的技术,作为统计数据质量管理的重要环节,数据质量评估方法的确定应从多个方面进行分析,就其实用性、准确性、评估过程、优缺点进行详细剖析,以确保数据质量的评估实际价值。

参考文献:

[1]郭红丽,王华. 宏观统计数据质量评估的研究范畴与基本范式[J]. 统计研究,2011,06:72-78.

[2]许涤龙,叶少波. 统计数据质量评估方法研究述评[J]. 统计与信息论坛,2011,07:3-14.

[3]胡光. 林业统计数据质量评估体系的研究[D].东北林业大学,2012.

篇5:人口普查数据质量评估的思考

眼下,基层开展人口普查数据质量评估,必须有科学的工作思路。

一是制订方案。明确地方人口普查数据质量评估的组织机构、领导责任、工作重点、部门协调、宣传引导、后勤保障等内容;明确地方人口普查开展数据质量评估的时间、对象、范围、责任、目标以及成果保密与报告的方式。

二是建立机构。为确保地方人口普查数据质量评估工作顺利进行,需要以地方政府人口普查领导小组名义建立组织机构,并将调研、协调、宣传等主要任务科学分解,应当由政府有关领导任组长,统计局主要领导为办公室主任并开展日常工作,成员由宣传、统计、发改、公安、计生、教育等单位负责人组成。

三是公开透明。要在加强地方主流新闻媒体协调的基础上,及时把地方人口普查数据质量评估方案、机构、任务、监督以及评估方式,在地方网络、报刊、电视上公开,主动接受社会监督。

四是明确责任。当前,要在明确地方人口普查数据质量评估思路和方式的基础上,切实明确参与地方人口普查数据质量评估的部门人员和责任,要求公安、计生、教育等部门分别提供有关调研数和部门资料,并指导基层完成人口普查数据质量评估任务,使地方人口普查数据质量评估工作,公开透明、部门参与、党政重视、程序规范、社会认可,成为推动统计“四大工程”建设与改革发展的重要环节。明确数据评估方式

基层开展人口普查数据质量评估,需要有符合实际的科学思路及方式并强化落实。一是自评完善。应当以乡镇为基层单位,在开展调研的基础上,进行人口普查数据质量自己评估,科学界定本乡镇人口普查登记的成果与误差,并推算出乡镇总户数、总人口以及人口流动、老龄化、性别比等主要指标区间。二是联评核实。应当在地方政府的统一部署下,协调宣传、公安、计生、教育等部门,适时召开地方人口普查数据质量评估联席会,对基层和本级人口普查登记得到的主要指标进行核实、界定并备案。三是验收公开。要在切实开展了地方人口普查数据质量自己评估、联评核实备案的基础上,以规范的方式书面请示,上级人口普查数据质量评估办公室验收核实,并公开接受社会监督,增强地方人口普查数据质量评估工作的公众性。四是由下而上。为使地方人口普查数据质量评估工作更加科学、规范、务实,应当推行由下而上的数据质量评估运行机制,以县、乡两级为基础,省、地两级为重点,国家最终审定的方式开展人口普查数据质量评估工作。县、乡两级评估工作应在公报发布前4个月内完成,省、地两级评估工作应在公报发布前3个月内完成,这样有利于改变普查数据质量评估中人为误差、上下有怨言、公众质疑的现象,切实提高地方人口普查数据的公众性、客观性和真实性。明确数据评估参数 多年来,基层对各项普查数据质量的评估积累了一定经验,也存在一些争议和问题,为提高地方人口普查数据质量评估的科学性与现实性,基层必须确定人口数据质量评估的参数。

一要有调研数。基层统计要把宣传贯彻党的方针政策、扶贫脱贫帮困、统计基础建设与地方人口普查数据质量评估有机结合,有计划地对1/3的县区、1/6的乡镇、1/20的普查区、1/30的普查小区的人口普查登记情况进行调研,以此推算乡镇和县(区、市)户数和人口登记结果与误差,为地方人口普查数据质量评估提供科学依据。

二要有历史数。应当从地方统计年鉴中,整理得出区域性总人口、总户数、老龄化、性别比等人口的变化参数,为地方人口普查数据质量评估提供参考。

三要有部门数。要在地方政府的统筹安排与协调下,由公安、人口计生、教育、卫生等部门提供户籍人口、流动人口、入学儿童、出生与死亡等人口信息作为评估参数之一。

四要有抽查数。各地在人口普查事后质量抽查中,得到了一些户记录、人记录信息,在进行区域性人口普查数据质量最终评估的过程中,要把事后质量抽查资料作为地方数据质量评估依据使用。

五要有快速汇总与光电录入数。科学技术是提高人口普查数据质量的保障,地方户数、人口等主要指标,快速汇总与光电录入已经基本成形,在开展地方数据质量评估中,要在做好保密工作的同时,科学运用于地方人口普查数据质量评估工作。当前,要切实从“调研数、历史数、部门数、抽查数、快速汇总与光电录入数”等方面,建立地方科学的人口普查数据质量评估机制,以加权或单间平均方法,推算出区域性总户数、人口总以及人口迁徙等有关系数,作为地方评估人口普查数据质量的科学参数,切实提高基层在人口普查数据质量评估中的科学性。明确数据评估重点

在实现统计“三个提高”的过程中,基层开展人口普查数据质量评估应当把握以下五个重点:

一是人口总量。要通过自下而上的逐级自评、联评、请示验收完善后,以地方人口普查数据质量评估小组办公室名义,科学界定地方人口普查总户数、常住人口、流动人口等主要指标区间及有关系数,为发布地方人口普查主要数据公报作技术和舆论导向的准备。

二是人口结构。当前,要在地方人口普查数据质量评估中,切实通过“调研数、历史数、部门数、抽查数、快速汇总与光电录入数”的综合分析运用,科学界定地方人口普查数据中的男性人口、女性人口、文盲人口、劳动力人口以及老龄人口区间与系数。

三是人口分布。为加快地方工业化、城镇化和现代农业发展速度,基层人口普查数据质量评估与资料开发利用,应当在创新思路和观念的基础上,科学界定地方人口迁徙方位、主要集居地、农民工住房等变化趋势,为地方村庄城镇化建设、发展现代工业、现代农业提供决策依据。

四是人口素质。基层人口普查数据质量评估与资料开发工作,要为地方党政提供本地区:初中文化程度、中技高中文化程度、大专以上文化程度的人口数及比重,为加快转变地方经济发展方式、推进改革与科学发展提供人才资源保障。

五是人口流动。要着力研究本地区人口跨乡镇和县(区、市)行政区域流动的数量、成本、就业、创收、交通、住房等情况,分析研究他们在推动地方城镇化、工业化、农业产业化建设中的作用与发展潜力。公开数据评估结论

在贯彻落实科学发展观、建设统计“四大工程”中,基层统计要在切实转变观念的基础上,把地方人口普查数据质量评估的过程作为宣传统计,争取地方党政更加重视和支持的重要渠道。

第一,要把地方人口普查数据质量评估结论及时报告地方政府。以对历史和人民负责的态度,把地方人口普查数据质量评估方式、参数、程序以及主要指标区间,由人口普查办公室主任签名作出科学的界定,以规范的机密文件及时书面报告地方政府有关领导,要求结合地方实际及时作出审核批示,为地方人口普查数据质量评估的客观性、公正性提供保障。

第二,要把地方人口普查数据质量评估结论及时报告上级主管部门。要充分认识开展地方人口普查数据质量评估,目的在于使地方人口普查得到的主要信息更加真实、科学,能成为重大决策的依据并经受历史的检验。因此,必须把地方人口普查数据质量评估的方案、原则、流程、方式、重点、结论以及面临的困难、问题和工作建议,以规范的机密文件及时报告上级人口普查办公室,并对本地区人口普查主要指标,由人口普查办公室主任签名作出科学的界定后书面上报。

篇6:数据质量评估方法

(一)审核评估范围

月报、季度、统计报表的主要指标数据均应进行评估。

(二)审核评估内容

1.统计范围中,全面统计的调查单位是否全面,非全面调查的样本单位、重点单位是否具有代表性。

2.统计数据同国民经济核算体系中相应或相关的数据是否一致或衔接;同业务部门相应或相关的数据是否有出入,有出入的原因是否清楚合理。

3.反映的增长速度、结构比重的变化是否清楚合理;同社会经济发展的客观情况是否吻合。

(三)审核评估步骤

1.统计人员按上述要求提供数据质量审核评估报告,当期报表,以及主要指标数据与上年的对比表。

2.召集相关部门和领导对数据质量进行审核评估。

3.经审核评估发现有重要差错或疑问的数字,由统计人员负责查对核实或调整,再由主管领导审定。

4、报表经过审核评估无误后由主管领导和统计人员签字,并加盖单位公章。

(四)审核评估时间

1.月报数据如出现陡增陡降或趋势性问题等,随时召开审核评估会。

2.每季对有明显趋势变化的统计数据,写出审核评估报告或书面说明,交分管领导审定,如有问题可随时召开评估会。

篇7:数据质量评估方法

实施方案的通知

各市农信办、各县(市、区)农信联社、农商银行:

现将《××省农村信用社数据质量管理良好标准评估实施方案》予以印发,请遵照执行。

2014年8月21日

村信用社数据质量管理良好标准实施工作的组织领导、工作部署、沟通协调等事项。领导小组下设办公室,办公室设在信贷业务部,具体落实领导小组的各项决定和工作部署,负责领导小组对外联系、协调事宜,统计、汇总、分析、通报数据质量管理良好标准工作开展情况,完成领导小组交办的其他工作。

各市农信办和县级行社要相应成立由主管领导任组长的数据质量管理良好标准实施工作领导小组,具体负责本级农信社数据质量管理良好标准实施工作。

三、有效组织实施

(一)认真组织自评(2014年7月1日—2014年8月29日)

全省各级农信社要组织由信贷、财会、科技、合规等部门人员组成的评估团队,严格按照《良好标准》中5 方面要素、15 项原则和 61 条具体标准的相关要求,对本机构数据质量管理情况进行全面自评,认真查找现有监管统计工作中存在的问题和不足。对支持本机构评估结论的文件资料,不仅要列名清单,还应将文件资料作为自评依据,整理成册。自评结束后,要认真总结分析,撰写自评报告,对61条具体标准进行归纳分析,明确提出影响本单位当前监管统计数据质量和管理水平的薄弱环节,并据此逐步进行整改。

(二)分级有序整改(2014年9月—2016年12月)

“1104”报表系统。前期省联社已将“1104”报表系统的相关需求提交给新一代IT系统的数据仓库模块部分,并将于2014年10月份上线,省联社将做好相关测试和培训工作,争取在2015年3月份前使用新的“1104”报表系统报送数据,届时,数据自动采集率将达到80%以上,数据质量和报送效率将大幅提高。二是研发新版风险客户端统计信息系统。目前,省联社已与相关公司签订了系统开发合同,将于2014年10月前完成需求提供,12月前完成程序开发,2015年3月前完成数据补录、测试、培训等工作,确保2015年6月实现正式报数。三是推进金融统计数据标准化工作。省联社前期已按照人民银行、银监会以及国家金融统计标准化委员会的相关要求,将存款、贷款等基本业务的数据元标准提交新一代IT系统,将于2014年10月逐步实施。2015年起,省联社将逐步将信托、理财等业务的数据标准纳入相关的统计系统,并根据银监部门要求,在2016年12月前,将主要监管统计所涉及的数据标准纳入相应科技系统。四是明确操作标准和流程。待相关各系统测试完备后,省联社将组织相关人员编制详细的操作指导手册,解释各业务指标含义,明确操作步骤和流程,为基层统计人员提供详细的操作指南,使统计工作标准化、规范化、流程化。

2.县级行社层面整改措施。县级行社作为数据质量第一责任人,要强化全局意识,全力配合省联社工作部署,建立

不断提高监管统计的科技支撑水平。

四、加强考核验收

在整改落实过程中,省联社和县级行社要逐年对整改效果进行评价,分析整改落实进展情况,按季度撰写数据质量管理良好标准推动工作评价报告,总结前期整改情况,制订下步整改计划,确保整改工作按计划有序推进。与此同时,省联社也将组织检查组,配合银监部门的外部评估检查,定期或不定期对县级行社的整改工作进行现场检查,督促县级行社做好数据质量管理良好标准推动工作。

五、实时反馈信息

在数据质量管理良好标准工作推动过程中,全省农信社要建立良好沟通协调机制,尤其是县级行社,要针对数据质量管理中出现的新情况、新问题,加强与省联社的沟通与交流,积极提出合理化意见和建议,保证全省农信社数据质量管理体系能够始终适应工作实际需要,各项机制保持良好运行效率。

六、加大问责力度

篇8:数据质量评估方法

一、计量模型的选取

构建计量模型的首要任务是从一定的经济理论出发, 针对特定的研究对象, 选择合适的经济计量模型;其次是选取具有代表性的相关指标作为模型的解释变量, 这些指标不能过多, 并且来源相对独立、可靠。如果相关指标过多即解释变量过多, 难以同时保证各个解释变量数据的质量, 容易对模型的估计造成极大的影响, 不利于正确评估被解释变量。而解释变量数据来源独立、可靠则可以保证模型分析的有效性, 便于客观的评估。例如, 以生产函数为基础, 可以分析在一定资本投入量和劳动投入量下产出的多少, 根据实际资本投入和劳动投入指标的数据, 衡量产出数据的准确性;也可以根据凯恩斯绝对收入假说下的消费函数形式, 研究消费者实际消费水平与实际收入之间的关系。

注:该论文系2010年度湖南省哲学社会

二、计量模型的统计诊断

基本思路:在上述具有经济意义的既定模型基础上, 在模型解释变量数据可靠的假定下, 通过计算模型的诊断统计量, 分析各个样本点对模型的影响, 找出所谓的异常点即与模型偏离的异常数据, 认为这些点是数据质量可疑的点, 需要进一步对这些数据点进行多方面的论证才能最后下结论。

统计诊断是20世纪70年代中期发展起来的一门统计学分支。因为任何统计模型都只能是对客观现象复杂变化过程的一次近似描述, 不可避免地要包含某些假定, 甚至连模型本身也是一种假定。所以, 在研究实际问题时, 常常要面对这样的问题:收集到的客观现象的数据的准确性如何, 错误数据对模型估计的影响有多大等等。模型的统计诊断就是针对上述问题发展起来的一种分析方法。为了克服既定模型与客观实际之间的不一致性, 通常有两种

途径:第一, 采用稳健估计方法, 避免统计推断受模型的微小变动或扰动的影响;第二, 找寻一种诊断方法, 判断实际数据是否与既定模型有较大偏离并采取相应对策, 这是统计诊断的主要内容。如果实际数据中仅有个别点与既定模型偏离较大, 则可以肯定模型, 并对这些个别点做进一步考察, 然而如果实际数据中许多点与既定模型偏差较大, 则需要采取更有力的治疗措施。

通过统计诊断, 可以找出严重偏离既定模型的数据点, 即所谓的异常点;也可以区分出对于统计推断影响特别大的点, 即强影响点;还可以找出远离数据主体的点, 即高杠杆点。为了将统计诊断用于数据质量的评估, 既定的模型必须具有合理的经济意义, 通过模型计算有关诊断统计量来判断某一数据点是异常点、强影响点还是高杠杆点。

在回归模型中, 异常点是指对既定模型偏离很大的数据点。只有在对误差项的分布有一定假设的前提下, 才能判断数据点的偏离达到何种程度才算是异常。尽管异常点的概念似很明显, 图形也很直观, 但是, 至今尚未有一个公认的定义。Bechman和Cook (1983) 指出, 对异常点的理解一般有两种情形:第一, 把异常点看成是那些与数据集的总体明显不协调的、小概率发生时所产生的数据点, 可解释为落在所假定的分布的单侧或双侧A分位点以外的极端点。第二, 把异常点视为杂质点 (contaminant) , 即被认为不是与数据集来自同一分布的而掺入到该数据集中的杂志。不论哪种情形, 异常点的异常之处是相对于数据集的总体或所假定的模型而言的。通常采用两种模型检验异常点:一种是数据删除模型, 另一种是均值漂移模型, 这两种模型分别通过不同的途径, 研究删除某个数据点前后对于模型估计量是否有显著的影响, 两者在检验效果上具有一致性。

强影响点是指对模型的统计量取值有非常大影响力或冲击力的数据点。在具体分析时, 首先要明确是对哪一个统计量的影响0。例如, 在线性回归模型中, 所考虑的是对回归系数B的估计量^B的影响, 还是对模型拟合优度统计量的影响。对于影响

三、计量模型法的特点及评价

1. 经典计量分析法建立模型的依据

是经济理论, 其在模型的形式及解释变量的选取上没有趋势模拟评估法那么随意, 必须遵循一定的经济理论, 选取相关的指标变量。借助与考察指标相关的其他经济指标的数据来研究考察指标的数据质量是该方法的一个主要特点。

2. 与已有研究不同的是, 本文认为计

量模型的质量受到所选取的指标的影响, 在所选取指标数据质量可靠的假定下, 若选取了过多的指标作为解释变量, 则当同时出现多个指标的数据质量问题时, 通过模型评估数据质量所冒的错判风险很大, 因此, 本文主张不要选取过多的指标作为解释变量, 只需要有代表性的几个相关指标就可以建立模型。在较少解释变量的情况下, 既可以通过控制解释变量的数据质量有效的控制评估效果, 同时也可以将模型简化。

四、结束语

在经济计量模型的基础上, 也可采用趋势模拟评估法中检验异常值的方法判断数据的质量。所不同的是, 后者只能对考察期的样本数据进行评估, 而运用诊断统计量, 则可以对各个样本点同时进行评估。

摘要:本文以经济理论为基础, 从整个经济系统出发, 对计量模型的选取方法和统计诊断原理进行细致介绍, 并在此基础上对经典计量模型法的特点进行分析评价。

关键词:统计数据质量,经典计量模型法

参考文献

[1]蔡志洲.支出法国内生产总值全国与地区数据的衔接[J].经济科学, 200 (34)

篇9:数据可用性的评估方法分析

摘 要:针对日益突显的数据质量问题,文章从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,指出了相关工作的进一步研究方向。

关键词:数据质量;可用性;评估方法

中图分类号:TP315 文献标识码:A 文章编号:1006-8937(2015)15-0062-02

随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。

1 数据可用性定义

研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:

①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。

②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。

③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。

④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。

⑤实体的同一性:指同一实体在各种数据源中的描述统一。

一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。

2 评估方法分析

对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。

2.1 基于一致性的方法

文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。

文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新发布、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。

文献[3]针对P2P分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法PLCP。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法DACP和KACP。

文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。

基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。

2.2 基于精确性的方法

数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。

2.3 基于完整性的方法

针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在DBLP数据上的实验验证了算法的有效性和高效性。

在具体应用领域,张少敏等利用IEC61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。

Barcelo P等将传统的完整性理论扩展到XML数据上,讨论了不完整XML数据的表示问题。

另外,针对云存储服务中数据的完整性问题,一些研究者提出了PDP 和POR。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。

基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。

2.4 基于时效性的方法

文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。

文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.

在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。

基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。

2.5 基于实体同一性的方法

实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。

针对实体同一性方面的相关技术,包括实体识别的效率问题、识别的增量计算、半结构化数据上的实体识别等,文献[4] 展开了相对完整的讨论。

对于实体统一性的评估方法大多针对关系数据,针对复杂结构数据、半结构化数据、非机构化数据方面的研究还很少。

3 结 语

在大数据时代,数据量急剧增长,数据的可用性问题将严重影响基于数据的知识和决策。确保大数据的可用性是进行大数据分析、处理的关键基础,将直接关系到大数据价值的体现。本文针对数据质量问题,从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,将有助于促进大数据可用性的研究。

参考文献:

[1] 刘仕一,李涛,刘哲哿,等.异地备份系统数据一致性检测方法[J].计算机工程与设,2010,(17).

[2] 周婧,王意洁,阮炜,等.面向海量数据的数据一致性研究[J].计算机科学,2006,(4).

[3] 周婧.P2P分布存储系统中海量数据的数据一致性维护技术研究[D].长沙:国防科学技术大学,2007.

[4] 刘显敏,李建.中实体识别问题的相关研究[J].智能计算机与应用,2013,(2).

[5] Mattia Monga,Sabrina Sicari.Assessing Data Quality by a Cross-Layer

Approach[D].Ultra Modern Telecommunications & Workshops,2009.

[6] Cheng R,Chen J,xie X.Cleaning uncertain data with quality guarant-

ees[J].Proceedings of the VLDB Endowment,2008,(1).

[7] 杨超,吴爱荣.基于衰减因子的评价数据时效性处理方法[J].计算机工程与设计,2010,(3).

[8] 李默涵,李建中,高宏.数据时效性判定问题的求解算法[J].计算机学报,2012,(11).

上一篇:在平安创建会上得讲话下一篇:基于营销策划大赛的《广告学》课程教学改革与研究论文