电信行业数据仓库应用情况分析及展望

2024-08-26

电信行业数据仓库应用情况分析及展望(精选4篇)

篇1:电信行业数据仓库应用情况分析及展望

从2001年开始,国内的电信行业开始着手进行数据仓库系统的建设和应用工作。经过五年多时间,大部分运营商不仅已经完成了数据仓库的建设工作,而且已经开始出现很有价值的业务应用,为企业内部管理和外部市场竞争活动提供了有力的支撑。

电信行业数据仓库建设情况概述

从上世纪90年代开始,随着电信行业垄断格局被打破,电信行业的市场竞争越来越激烈,在2000年左右,电信企业间的竞争已经不满足于单纯的价格战手段,迫切需要提升竞争的手段和方法,提高企业的市场竞争力。

国际上的电信运营商在经历了传统的价格战之后,为了提升企业的竞争力,充分使用了各种信息化手段,其中,数据仓库技术是主要的手段。据统计,国际上资产排名前十名的电信运营商,均建设了数据仓库系统。

以中国移动为典型代表,从2001年开始进行了数据仓库的设计和准备工作,在建设数据仓库的同时,也在逐步构筑完整的数据仓库业务应用内容。2002年完成了系统的详细的设计过程,2003年中国移动完成了数据仓库系统的建设工作,2004年建立并完善了初步的应用体系,2005年开始进行专项的数据质量整改工作。中国联通也从2003年开始陆续启动了数据仓库系统项目的设计、建设和应用等工作。

与国外电信运营商相比,国内电信行业数据仓库项目有如下的特点:

1.数据量更加庞大

中国移动已经发展成为世界最大的无线运营商,拥有近3亿的客户,话务量大,数据量也十分庞大。目前中国移动的数据仓库设备容量已经超过上千个TB,而在国外的电信运营商,最大的仅300TB。庞大的数据量对数据仓库的处理能力等多个方面构成了挑战,对系统的性能提出了更高的要求。

2.业务管理不规范,导致数据仓库较复杂

由于国内电信企业的业务管理仍不规范,导致各省公司之间的产品差别很大,业务模式也有很大区别,这使数据仓库的设计十分复杂,同时对数据的梳理工作也变得十分艰巨。

3.业务应用水平仍有差距

从总体而言,国内的数据仓库在应用水平方面,较国外的先进水平仍有差距。国外在数理统计等多个方面积累了很长时间的经验,数据分析人员水平也比较高,而国内仍靠技术人员进行分析为主,对业务知识仍比较欠缺。

综上所述,国内部分电信企业已经完成了大型数据仓库的建设工作,而逐步转向为丰富业务应用的过程,只有通过深入的业务应用工作,才能保障数据仓库系统发挥效果,并真正提升企业的精细化管理、精细化营销能力。

电信行业的数据仓库应用特点

数据仓库的应用是满足对数据进行整理和分析的需求,与其它的IT系统相比有如下的一些区别。

1.业务应用范围比较零散,内容丰富

数据仓库的业务应用,不仅会涉及到企业外部的市场营销,也会涉及企业内部的各项管理工作,因此范围十分广泛。同时,内容也十分丰富,可以细到对某类客户的详细分析,也可以包括对电信企业宏观发展的决策等。

2.针对数据的分析为主,业务水平要求较高

数据仓库业务应用以对数据的分析为主,而这种分析的过程要求分析人员能够具备较丰富的业务知识,才能得出理想的分析结果。即使是同样的数据,技术人员和业务人员也可能会得出不同的结论。

3.业务应用是建立在保证数据质量的前提下

数据仓库的数据质量涉及到多个方面,在系统建设之初,主要是围绕系统本身的问题。经过一段稳定时间之后,问题常常集中在统计口径方面,需要对业务系统的很多业务规则进行梳理。应该说,很多的数据质量问题都是由上游系统产生的,但通过数据仓库系统暴露出来了。如果数据质量无法保障,分析的结果也会无法保证准确性,因此数据质量对数据仓库的业务应用是基础。

数据仓库业务应用的分类方法

数据仓库的业务应用,从不同的角度有不同的划分方法。

1.从技术角度划分的应用分类

从技术角度,对有关的业务应用内容可以分为:

(1)KPI应用

主要是反映外部市场和内部管理的主要关键指标,如总收入和客户数等内容。这些关键指标能够直观地反映出企业运营管理的基本情况。

(2)报表应用

这是目前应用最多的形式,目前国内大部分的数据仓库业务需求,都是通过报表的形式提出来。业务人员使用报表比较熟悉,也比较方便。由于对使用人员的技术素质要求不高,报表在几年内仍将是主要的业务应用形式。

(3)OLAP应用

OLAP分析方法是对报表分析能力的一次提升,跳出了传统报表的二维信息的局限性,能够灵活地提供多维度、多角度的分析方法,并能灵活地进行上钻、下钻等操作。OLAP能够更加丰富地展现数据仓库中的相关数据,提高了分析的过程,丰富了分析的视野,但对操作人员的技术水平要求也越来越高。

(4)数据挖掘应用

数据挖掘是在大量数据的基础上,通过数学的方法,发现有价值信息的过程。数据挖掘能够提升人类对数据的分析能力和深度,但对操作人员的技术和业务方面的素质要求也十分高,国内目前仍处于起步阶段。

2.从业务角度划分的应用类型

从业务角度,目前数据仓库业务应用可以分为两类。

一种是通用性的应用,即在进行业务分析过程中基本都会使用到的分析内容。例如,围绕客户、市场等方面,提供一些客户基本信息、基本行为的一些共性分析,供所有使用者进行分析。

另一种是比较专项的应用,即针对特定的部门或者特定的角色提供的个性化的业务应用内容。例如,主要是面向不同的业务领域,针对不同的业务部门,提供有关的分析内容。

3.数据仓库自身的业务应用

在数据仓库的业务应用内容中,也会包括对数据仓库自身进行管理的一些业务应用内容。这些内容会围绕数据质量管理等方面,如接口数据的变动干扰分析,指标的血缘分析等内容。这些应用的目的是为了提升数据仓库自身的准确性等方面的功能,提升自身的相关管理水平。

电信行业数据仓库具体应用举例

数据仓库项目包括了两个层面的价值。

首先,在建设数据仓库的过程中,对现有的数据资源进行了一次完整的梳理,对相关的业务系统的数据质量进行了同步的检查和监督。这是对企业内部IT系统进行梳理的过程,要解决很多业务方面的问题。该过程十分庞杂,但也为企业内部的业务系统进行了一次完整的整理过程,为企业的IT应用发展奠定了扎实的数据质量基础,这方面的工作对企业的长久发展意义十分巨大。

其次,是建立在数据仓库基础上的各种业务应用,这些应用过程是从数据中,发现有价值信息的过程,也为企业的各个环节的管理,提供了数据分析的依据。这种数据分析的过程,结合企业相关的管理手段的提升,会转化为巨大的生产力,提升企业的精细化管理和精细化营销的能力。

下面,以客户离网分析为主,提供有关的具体分析例子。

客户离网是生产经营面临的一个基本问题,也是影响经营状况的一个重要因素,一方面会造成收入的下降,市场占有率下降,营销成本增加、收入降低的问题;另一方面,恶意离网会造成客户欠费,带来不必要的经济损失。离网分析的目的就是要通过特定算法,分析出哪些客户具有较大的离网概率,从而对这些客户进行有目的的挽留工作,尽量减少客户流失带来的损失。通过离网模型可以提高对高价值客户挽留成功率,降低客户离网率,降低挽留服务的成本,做到有的放矢,减少由于客户离网带来的收入损失。

在这种情况下,如何挽留住客户成为一个非常重要的问题,而挽留的前提一方面要有好的市场经营策略,另一方面要能够预测那些客户有离网动向,有目的的、有针对性的进行挽留。

1.分析方法描述

分析方法主要采用:聚类、因子分析、决策树。

2.实现方案

(1)建立离网预测的分析模型,配合离网分析的客户信息库,建立离网分析模型基础挖掘数据;

(2)根据数据仓库中现有信息和历史数据,对客户进行各种信息进行归纳、分类,将客户进行分群;

(3)根据客户分群的结果,采用不同的算法对不同群体的离网客户的信息进行分析,探索离网规律;

(4)根据离网规律对当前客户的离网倾向进行预测,分析客户离网倾向,同时根据客户的离网倾向程度进行打分;

(5)根据离网倾向从高到低给出客户清单信息。

3.应用方案

(1)离网原因分析,采用聚类的方法来分析客户的消费行为,即根据客户的通话等消费情况、离网特征信息将客户分成多个群,同一群客户的消费行为具有较高的相似度,而不同群的客户间消费行为差异较大。分析每群客户的离网原因,有针对性地提出挽留建议。

(2)依据客户属性分组,制定相应的营销政策与客户进行沟通,在沟通的过程中,确认客户是否具有流失倾向,以及有流失倾向的客户真正流失原因。

(3)挽留任务分解,根据提取具有离网倾向的客户按归属客户经理进行分配,对没有归属客户经理,安排电话经理进行外呼,根据相应的挽留策略实施离网挽留。

(4)客户经理根据外呼挽留实际情况进行反馈。

5.应用效果

某省电信运营商的离网模型效果如下:

目前离网分析的命中率为30%左右,查全率为70%,其中离网率为2.1%,预测结果中的命中率为31%,LIFT提高了14.8倍。通过LIFT指标可以看到,离网模型帮助缩小了挽留客户群,减少了挽留工作量和降低了挽留成本。

命中率:被准确预测为离网(预测离网并且真正离网)的客户占客户总数的百分比。查全率:被准确预测为离网的客户占实际离网客户总数的百分比。

Lift=客户的命中率/不使用模型时的离网率。

电信行业数据仓库应用发展展望

随着数据仓库系统功能的不断丰富,涵盖的数据源范围也会越来越多,数据仓库将发展成为企业的信息中心,是企业内部、外部数据的汇集之地。最终,数据仓库将发展成为企业内部的神经中枢系统,是企业进行各项活动的判断依据,成为企业管理的核心。

在针对企业各方面的管理内容之外,也可以发展成为电信企业的重要赢利手段。随着竞争的激活,价格会越来越低,电信企业传统的提供通信通道方面的价值会越来越低,利润也会越来越低,电信企业必然面临转型问题。

如果建立了比较全面的数据仓库系统,电信企业可以获取用户在各个方面的数据信息,围绕这些信息,可以发展成为“客户需求”的管理门户,及时发现客户的需求,然后根据客户的需求,联系零售等领域的供货商,为客户提供满意、低廉的产品服务。

例如,电信运营商发现客户A经常购买婴幼儿产品,并且消费能力很强,就可以联系婴幼儿的相关厂商,向该客户A进行主动的婴幼儿产品营销活动。而客户B经常出入各种高级的餐馆,对川菜比较感兴趣,就可以连续新开张的高档川菜餐馆,向客户B进行主动营销。在这种模式中,电信运营商可以发展成为客户与外界需求的主要信息渠道,然后结合物流、资金流方法,为用户提供丰富的、低廉的产品,发展成为信息的沃尔玛超市,为客户提供网上产品营销等多种服务。这种情况下,电信运营上就可以发展成为信息运营商,通过信息运营,开辟赢利的新的模式和更多的利润。

篇2:数据仓库技术在电信行业中的应用

中国加入WTO之后,许多国际电信企业都看准了中国这个大市场。按照加入WTO的承诺,2007年后,中国电信市场将全面向外资开放。2006年9月粤港两地电信专题研讨会上,港方队伍阵容庞大,香港流动通讯、和记电讯、电讯盈科等均出席会议,可见这些香港电信大鳄都垂涎大陆蒸蒸日上的电信市场。面对来势汹汹的“洋”电信,中国的电信企业也积极开展技术管理革新,构建自己的数据仓库系统,通过对客户数据和业务数据的整理和分析,制定出适当的决策,牢牢地留住原有的客户群体,为将来的竞争打下坚实的基础。

2.吉林移动通信公司数据仓库构建

体系结构是在建立数据仓库平台时所贯彻的一个整体蓝图。目前数据仓库的体系结构从层次上可以分为两层结构和三层结构,但各种实现对三层结构的定义各不相同。根据吉林移动通信公司数据仓库项目的需求分析和现场的各种实际条件,我们采用了文献[8]中王珊老师所定义的采用ODS(Operational Data Store,操作数据存储)层的三层体系结构。基于ODS层的数据仓库体系结构见图1。

2.1 项目概述

数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整个系统。构建系统的简单的基本框体系结构是在建立数据仓库平台时所贯彻的一个整体蓝图,见图2。

2.2 数据挖掘

数据挖掘是对一些重要的信息进行的专题分析。专题分析是针对某些特定业务问题的细化和深入分析,它的针对性强,直接聚集于客户及市场经营者所关心的业务热点和难点问题。

根据业务需求,本部分分为大客户专题分析和竞争对手专题分析。

大客户专题的挖掘分析主要针对吉林移动通信公司的大客户的发展情况、业务使用情况、群体特征、异动情况和潜在大客户的分析等内容,目前主要包括下面5个业务专题分析功能:客户趋势与预警分析;客户分群分析;大客户群体特征分析;潜在大客户分析;大客户异动分析。

竞争对手专题部分主要是针对竞争对手(暂时只有联通)的业务发展情况进行分析,它包括4个业务专题分析功能:联通用户价值评估;TOP N分析;趋势与预警;比较分析。

3.基于SYBASE数据库的通用数据抽取程序

本程序是针对吉林移动通信公司数据仓库的一个通用数据抽取程序,流程图如图3所示。数据源端是SYBASE数据库,目标库是DB2 EEE,能够实现按照时间字段抽取SYBASE数据库中的数据和在抽取过程中能够实现针对DB2 EEE的数据格式转换。

3.1 数据格式转换

1)无意义字段取值的转换

字段取值为NULL值、空值时,以空格填充至定义的长度。

2)数字格式

在接口数据文件中,小数点的前后需有数字,字最高位的左边第一位为符号位。对于负数,符号位为“-”,正数不用加符号位;左对齐,以空格右填充至定义的长度。

3)字符格式

左对齐,以空格右填充至定义的长度。

4)空记录(NULL)

数据仓库系统中不能出现NULL,所有数据仓库系统中出现的NULL被认为是无意义的,所以在上传数据文件中,NULL按照如下规则转换:字符类型的NULL,以空格填充至定义的长度;数字类型的NULL,以0填充,并加以空格右填充至定义的长度;时间类型的NULL,以空格填充至定义的长度空格;业务系统中,字段的值完全为空格(一个或多个)或字段值首尾包含的空格,在数据仓库中视为无意义,所以以如如果果在在业业务务系系统统存存在在以以上上类类型型的的空空格格,,转转换换为为有有意意义义的的其它字符,字符串的前后空格均视为无意义。

5)日期类型

日期类型统一采用YYYYMMDD格式,不允许出现空值,且YYYYMMDD为有意义的日期,其中,YYYY为四位数字,必须是有效的年份,MM为两位数字,是有效的月份(01-12),DD为两位数字,是有效的日期(01-31)。对于不符合日期约束规则的日期值,处理方式存在以下两种情况:无值的日期或者无意义的日期,这时在接口中一律以“00010101”(公元元年1月1日)填充,接口单元中的“失效日期”在表示“未失效”含义时,一律以“29991231”(公元2999年12月31日)填充。在以下数据接口单元中,日期类型统一使用“date”定义。

6)时间类型

统一采用HHMMSS格式,HH为两位数字,是有效的小时(00-23),24小时制,MM为两位数字,是有效的分钟(00-59),SS为两位数字,是有效的秒(00-59),对于不符合时间约束规则的时间值,处理方式同NULL。

3.2 数据抽取

在按月抽取话单时发现,数据量太大,性能上无法实现。吉林移动通讯公司计费系统的话单是每月一张表,按话单号(Ticket_id)入库的,没有时间戳,无法按时间戳进行每天的数据抽取;且有多台交换机,产生的话单会同时入库:大的交换机话单多,对话单进行批价处理后,会有多话单堆积等待入库。小的交换机话单少,堆积也少。因此小交换机上Ticket_id比大交换机上Ticket_id大,则话单可能先入库,使得话单不按话单号顺序入库。针对此问题,提出了如下的解决方案:

1)每天的零点先从Ticket_id记录文件中获取上次的Ticket_id作为最小Ticket_id,再取话单中最大的Ticket_id值,然后等待12个小时,尽量使小于最大Ticket_id值的话单都入库再进行抽取。

2)对21日详单表进行换表,延迟话单仍需入到上个月的表中。因此21日换表前后需要特殊处理。对21日仍抽取上月的表,最大、最小ID之间的后入的延迟话单,需单独的程序和流程在27日来处理。对22日则抽取下月的表,但第一天不能延续上月的最大值,只需小于当前最大值。

3)27号进行如下处理:寻找上月抽数文件中最大的Ticket_id值,抽取表中所有大于最大Ticket_id值的话单数据。

4.结束语

数据仓库的建设是一个循序渐进的过程,随着技术的不断发展以及业务流程的日趋完善,随着市场竞争的加剧,数据仓库技术应用越来越广泛。电信行业建立自己的数据仓库,为决策支持系统提供数据支持,成为各行业应用数据仓库的一个缩影。在不久的将来,数据仓库技术将会得到更为广泛的应用。

参考文献

[1]苟茹辛.电信企业数据长裤建设[J].邮电规划,2003,7(5):38-41.

[2]徐洁馨.数据仓库与决策支持系统[M].北京:科学出版社,2005.

[3]陈东鹏.数据仓库技术在移动通信领域的应用[J].通信世界会议专辑,2001,4.

篇3:电信行业数据仓库应用情况分析及展望

2013年,轻工行业工业增加值累计增速10.16%,高于全国工业0.46个百分点;轻工业规模以上企业主营业务收入20.3万亿元,比上年增长13.66%;实现利润1.3万亿元,比上年增长14.61%;主营业务收入利润率6.47%,比去年同期提高0.25个百分点;轻工产品海关出口总额5583.38亿美元,比上年增长9.99%。

一、工业增加值累计增速高于全国水平

根据国家统计局数据,2013年,轻工行业增加值累计同比增长10.16%,其中12月当月同比增长9.4%,比11月份回落0.7个百分点。轻工行业工业增加值累计增速高于全国工业0.46个百分点(同期全国工业增加值累计同比增长9.7%,12月当月同比增长9.7%)。

二、主营业务收入平稳增长

2013年,轻工业规模以上企业累计主营业务收入20.3万亿元,比上年增长13.66%。累计增速自下半年以来在13%-14%的区间内小幅波动,走势平稳。其中12月份主营业务收入2.12万亿元,为年内月度最高值,同比增长15.2%,月度增速较前期有大幅回升。

2013年,轻工快速消费品、文体休闲用品及原料行业的主营业务收入增速较去年有所放缓;日用消费品、耐用消费品行业主营收入增速提高,轻工机械装备制造行业主营业务收入有较大幅度增长,比上年同期提高7.06个百分点。

在各主要行业中,羽绒、陶瓷、照明、食品行业表现良好,主营业务增速均超过15%;乐器、钟表、造纸等行业增速较低。

三、产品结构调整初现成效

2013年,国家统计局统计的92种轻工主要产品中,69种产品产量正增长,占总数的75%。全年各月度产量同比增长的产品比重均超过70%。在产量增长的轻工产品中,家电、电池、电动自行车、食品类产品增速较快。

产量下降的轻工产品中,下降较多的是以纸、革为代表的原料类产品和被转型替代的产品。其中:轻革、新闻纸产量降幅分别为23.7%、5.7%。玻璃保温容器、钟、家用电风扇、白炽灯泡、脚踏自行车等被转型替代的产品降幅分别为21.3%、12.6%、4.0%、3.55%、1.8%,这表明轻工行业加速淘汰低端落后产品、实现结构优化升级的发展趋势已初步显现。

四、轻工商品出口保持稳定

2013年,轻工产品出口总额5583.38亿美元,同比增长9.99%,累计增速虽比上月有小幅回落,但稳定在10%左右,其中,12月份当月出口额547.2亿美元,为年内月度最高值。

2013年二季度轻工出口表现低迷,出现了月度出口零增长甚至负增长情况,下半年恢复正增长,从10月份起出口增幅有较大幅度回升。目前出口增速已稳定在10%左右,出口低迷局面有所改善,对促进轻工行业发展起到重要促进作用。

五、效益水平有所提升

2013年,轻工业规模以上企业利税总额1.99万亿元,同比增长14.89%;实现利润1.3万亿元,比上年增长14.61%。

目前轻工行业亏损面收窄,行业应收账款和产成品库存增速以及资产负债率较前期也有所下降,轻工行业经济运行质量总体有所改善。

2013年,轻工全行业主营业务收入利润率为6.47%,比上年同期提高0.25个百分点。其中酿酒、饮料、日化、洗涤行业主营业务收入率均超过10%,排名前列。

六、主要行业投资力度强劲

2013年主要轻工行业保持较高投资热情,主要轻工行业投资增速均高于制造业平均水平。其中皮革毛皮羽毛及其制品和制鞋业、造纸及纸制品业、橡胶和塑料制品业、金属制品业投资增速较上年有所提升,为行业持续增长提供了有效保障。

七、2014年经济指标预测

根据2013年轻工行业经济运行走势,结合行业发展规律,轻工行业2014年主要经济指标预测如下:

规模以上企业工业增加值增速10%。规模以上企业主营业务收入23万亿元,同比增长13.2%。轻工商品海关出口总额6113亿美元,同比增长9.5%。

篇4:电信行业数据仓库应用情况分析及展望

关键词:数据仓库,数据质量,提升措施

在互联网快速发展的信息时代, 电信企业均建设起数据仓库系统以适应发展的需要, 该系统可以将各业务系统里分散的数据加以集中整理, 将企业的运行数据以数据图的方式清晰明了地展现出来, 为企业的绩效考核工作与运营分析提供强有力的支撑。与此同时, 电信企业的正常运转也离不开数据仓库系统的有力支撑, 因此, 必须要保证系统的数据质量。然而实际上, 人们常常只重视实现系统数据的应用功能而疏于管理数据质量, 导致一些无用数据冗余在数据库中, 很不利于准确实现数据应用。

1 常见数据质量问题机原因解析

常见的数据仓库问题可以归结为以下几类:数据错误、数据缺失、数据重复、不同系统中含义相同的数据的属性值不同。出现以上质量问题的原因多种多样, 一般说来可以归结为以下几种:系统差错、规则差错、管控差错、数据源差错。下面笔者将逐一予以分析。

1.1 系统性差错

如果系统在处理数据过程中发生异常, 而处理机制又不够完善, 很容易引起数据质量问题。比如在ETL系统在加载过程中崩溃, 一旦缺少有效而迅速的应对机制将不能够及时发现问题并处理, 若事后对异常数据不加以约束的入库, 就极易致使数据重复加载或者数据缺失。所以要对ETL的全过程建立起完善的排障与监控机制, 确保如启动异常、过程中崩溃等一些影响数据加载的故障可以被及时发现并处理。由于源系统数据常常随生产而改变, 故不同时间点提取的数据也不同, 所以在抽取数据时也就要求目标系统一定要以上次抽取的时间点为起点。如果对抽取时间点不严加控制, 很容易造成数据重复或者缺失。

1.2 数据源差错

目标系统常常很难发现在源系统中不完整的数据, 也很难对其进行完善。以一个常见问题为例, 在用户资料中, 如果姓名项完整但地址数据缺失, 这种类型的缺失在特定业务中对整个业务流程或许无关紧要, 在这种情形下, 源系统就缺乏保证数据完整性的动力。

数据源不一致是另一个不可忽视的原因。早些时候, 业务系统的设计大多是独立的, 数据实体同样独立维护, 有着相同含义的数据实体, 其属性值会因系统的不同而不一致。比如同一产品, 其编码在计费系统和CRM系统中却可能不相同。源系统在运行过程中发生故障将造成数据处理差错, 如果未及时发现并予以排除, 错误的数据就会输送到目标系统中去。此外, 如果人工输入数据, 细微的操作差错就会导致输入错误数据进入系统。

1.3 管控性差错

没有完善的管控机制做保障, 数据质量的管理就无法有序进行。一旦核心数据的传输点缺少有效、有力的检控机制, 就会导致错误的数据沉淀在系统中, 对最终分析结果造成极不好的影响。管理数据质量的工作要求思维缜密、深入细节, 即便是拥有完善的管控机制, 也要有相应的执行力才可以保证工作的顺利有序展开。如果管控人员责任心不强, 疏于管控工作, 那么数据质量的管理就会变的流于形式毫无意义。

1.4 规则差错

规则性差错可以从数据的整合规则、业务规则和统计口径三方面来分析。首先, 如果数据整合规则有漏洞会致使数据映射发生差错, 造成数据不一致。实际应用时常出现系统中数据粒度或者分类有差异的现象, 这是因为针对在分析处理数据时, 不同的部门间有不同的要求。由于对业务指标的解释、定义、计算方法不同, 导致在核查过程中一些数据出现重义性。在数据应用平台与生产系统中统一指标的定义不同, 导致一旦对数据指标进行统一, 业务部门并不认可数据质量。

2 数据质量的提升措施

2.1 组织及流程建设

要提升数据的质量就要求有一个完善的管理组织架构, 第一责任部门在总体上负责, 各下属相关部门间团结合作, 一同承担起数据质量的管理任务。组织构架内要分工明确, 优化、细化管理流程, 明确每个环节负责人的责任, 制定合理的考核指标。

2.2 制定标准

(1) 明确系统的主体数据。数据仓库的建设初期, 定义主数据的工作往往会被忽略, 但是若想提升数据质量, 这一工作又是十分必要的。系统主体数据明确之后不但有利于数据系统的界定和整合数据, 对各个建设IT系统的项目组从整体上考虑数据采集与访问也是很有利的。值得一提的是, 数据整合之后, 该系统即为此类数据的主要系统。

(2) 制定数据质量标准。没有一个明确的标准就无法判定数据质量的好坏, 一个合理的数据标准是十分必要的。数据标准的制定要求各业务部门间通力配合, 初期可以先制定比如账户、客户、营销活动、账单等重要数据的质量标准, 随后再不断完善丰富这一标准, 直至成熟。

(3) 制定合理数据整合策略。数据值策略直接关系到数据质量, 是ETL的重点。数据仓库中的数据大多来源于各个源系统, 因此数据很分散, 整合量也比较大。整合时可以把以下几个核心部分作为出发点:公众用户的合并;付费客户的归并;资产与账户间的关系;客户经理及其客户树状结构的关系;账户、客户、用户的整合。

2.3 建立核查机制

2.3.1 核查业务指标

从数据库中分析并整理出业务指标, 校验其度量值在不在

GSM系统对TD-SCDMA系统测量的一种方法

孙强

(上海交通大学, 上海200000)

摘要:通过研究3GPP协议规定的GSM系统向TD-SCDMA系统自动漫游的相关参数, 发现在GSM系统下对TD-SCDMA系统进行测量时, 考虑RSSI门限和相关参数结合的方式, 使用测量分级的方法, 能够在不影响性能的前提下, 有效地控制双模终端的功耗。

关键词:GSM;TD-SCDMA;测量分级

中图分类号:TN929.533文献标识码:A

随着移动通信的发展, 第三代移动通信系统正逐渐地被应用。TD-SCDMA系统是中国提出的第三代移动通信系统, 目前已经正式商用。虽然GSM系统是第二代通信系统, 但由于其在全世界范围的广泛应用, 因此, 一定时间内在中国将处于两种系统并存的情况。因此, 如何在使用GSM系统的同时, 能够自动漫游到TD-SCDMA系统, 将成为TD-SCDMA系统发展的一个重要组成部分。而要完成自动漫游过程, 在GSM系统下对TD-SCDMA系统进行有效的测量就是重中之重。

本文从测量策略的角度出发, 给出了一种在GSM系统下对TD-SCDMA系统进行测量的方法。

首先, 给出一些技术背景知识, 从3GPP协议原文中 (见参考文献) 我们可以获取如下信息:

(1) 对TD-SCDMA系统的进行下行同步需要对其DWPCH信道进行搜索;

(2) 对TD-SCDMA系统进行测量, 需要对其信标信道

设定的阀值内。制定业务度量的指标, 对数据处理前后指标的总值进行汇总, 检验二者是否相同。制定业务度量的指标与指标的维度, 对数据处理前后分维度进行汇总, 检验二者是否相同。

2.3.2 核查技术指标

核查文件数:查看文件数目与校对文件所显示的数目是否一致;核查文件的规范性:检查文件的创建、修改时间、文件大小、名称等信息;核查记录数据的分量, 主要是校对分类型的数目即查看记所录的文件分类型的数目和校对文件所显示的是否一致一致;核查记录总数:查看记录的文件总数和校对文件所显示的数目是否一致。实际上, 工作中需要平衡系统性能和数据核查, 所以在宽表、核心和接口三层中, 主要选取比较核心的数据 (如产品、商家、客户、账单等) 进行核查。接下来以业务数据为例予以阐明。

(1) 核查数据接口:以接口表方式储存到数据仓库中的文件, 要注意核查其业务和技术指标。核查业务指标主要指计算分业务类型总的时长、加工前后通话的总时长等是否在合理的阀值内。核查技术指标主要指校验记录的分业务类型数目与前后的记录总数是否相同。

(2) 核查输入数据:业务详单常以文件形式由源系统传送到接口服务器, 收集这些数据之前, ETL要先核查记录的文件数目与校对文件的数据是否一致。

(3) 核查核心数据:经过转换、整合后, 接口数据变为符合3NF、以统一的模型存储的数据, 也就是核心数据。加载完业务单的核心数据后, 记录核心表与接口表的数据的总量、分类、通话时长的分量与总量, 校验通话时长的阀值, 如果系统性能允许, 也可以校验计费时长与总时长的关系等指标。

文章编号:1673-1131 (2012) 01-0168-02

进行测量, 而其信标信道即TS0 (时隙0) 的码道1和码道2

(3) 搜索DWPCH信道即是对SYNC_DL码进行搜索, 而一旦确定了SYNC_DL码, 即可以确定唯一的一个MID-AMBLE码;

(4) 测量的过程即是对MIDAMBLE码进行解码并求功率;

(5) TD-SCDMA系统是一个码分系统, 小区是用码来标识的;

(6) 对于TD系统, 对于TD的TS0, 其RSSI (频点能量) 的能量一定是大于等于RSCP (码道能量) 。

除了以上背景外, 中移动在GSM系统下对于TD-SCDMA系统的小区是通过系统消息SI2QUATER来广播的, 但只是广播频点, 不广播扰码, 因此, 在GSM系统下对于TD-SCDMA系统的测量需要进行小区搜索的过程, 但此过程因在GSM系

(4) 核查宽表数据:宽表是由核心层的关键数据拼接而成, 其主要作用是增强数据汇总和查询的高效性, 降低数据开发的难度、减轻数据系统的负担。因此宽表数据的业务和技术指标核查十分必要, 其主要核查方法同数据接口。

校验任何一项数据时, 若出现数据超出阀值, 不符合逻辑或者与事实不一致时, 应暂停数据加工作业, 重新返回上一层, 寻找出错误原因, 及时和相关人员协调解决。

3 结语

数据仓库的质量关系到数据仓库是否建设成功。电信企业必须重视数据质量的把关, 借由完善的信息管理流程与科学严密的组织构架, 各部门之间紧密合作、协调有序, 严格按照执行标准和考核指标开展工作, 切实保证并提高数据质量。也唯有如此才能最大化开发和发挥数据的价值, 提升企业综合竞争力, 使企业走上可持续发展道路。

参考文献

[1]刘飏.电信数据仓库数据质量问题及提升方法探讨[J].电信科学, 2009 (9) :45-46

[2]周东山, 李喜英.数据仓库建设中数据质量问题的研究[J].华南金融电脑, 2007 (7) :53

上一篇:肺炎疫情防控事迹材料下一篇:班主任自主招生推荐信