数据辨识

2024-07-12

数据辨识(精选九篇)

数据辨识 篇1

风电作为一种可再生的清洁能源,能够缓解电力紧缺的矛盾。随着风力发电技术的不断发展,风电单机容量和接入电网的风电场规模的将不断增加。当风电场接入电力系统后,由于风电本身所特有的间歇性和不确定性,不但会增加电网调度的难度,同时将对电网的经济稳定运行带来一定的影响,导致系统旋转备用增加,而旋转备用容量的增加间接地增加了风力发电的运营整体成本。为了保证风力发电系统稳定运行和供电系统的可靠性,有必要对区域风电场的功率进行预测。通过对风电场发电量的准确预测,可以大幅降低电网旋转备用容量,有效降低风力发电系统成本,为电网运行调度提供可靠的依据。

风速数据是风电功率预测重要的基础数据之一[1],但是,在风速数据的采集测量、传输、转换各个环节都可能发生故障或受到干扰,从而导致数据产生奇异点,它们以伪信息、伪变化规律的方式提供给各种风电预测模型,因此奇异点的出现对预测模型的参数估计和预报精度影响很大[2,3,4]。

本文采用基于小波模极大值的方法对风速数据中的奇异点进行辨识,该方法将阈值判断与李氏指数相结合,能准确地判断风速信中号的奇异性及发生时刻,剔除其中的奇异数据,通过修正提高风速数据的精度,从而提高风电功率预测的准确性。

1 小波分析理论

小波变换能够同时提供信号在频率域和时间域上良好的局部信息,尤其适合处理非平稳信号。

根据连续小波变换和离散小波变换。其中,连续小波变换适用于理论分析,离散小波变换更偏重于工程实践[5]。

1.1 静态小波变换

静态小波变换(Static Wavelet Transform,SWT)是在离散小波变换的基础上提出来的[6]。离散小波变换通常是使用二进抽取算法对信号进行下采样,每层分解后小波系数减少一半[7,8]。因此,当原始信号经过多层分解后,由于多次下采样后所得小波系数数据量逐层减少,因而无法对奇异点的位置实现精确辨识。静态小波变换与离散小波变换相比,变换后的近似系数和细节系数没有进行下采样,近似系数和细节系数仍然和原信号的长度相同,原信号各采样点的位置在小波分解系数中变化不大,因此,通过对小波分解系数的判断能够对奇异点出现的位置进行辨识[9]。

1.2 信号奇异点的辨识

在Mallat经典理论中,函数在某一点的局部奇异性可用Lipschitz指数,也称李氏指数α来描述[7,8,10]。该指数与小波变换的模值关系为:

其中,|WTx(a,b)|称为信号x(t)的小波变换的模(modulus)。在尺度-时间(a-t)平面上所有模极大值传播点的连线称为模极大值线。

在二进制小波变换中,令a=2j,对式(1)两边取以2为底的对数,则:

式中,李氏指数α对应模极大值线的斜率。对于信号x(t),如果在t0处的李氏指数α>0,那么小波变换的模极大值随着尺度j的增大而增大;如果在t0处的李氏指数α<0,那么小波变换的模极大值随着尺度j的增大而减小;如果在t0处的李氏指数α=0,那么小波变换的模极大值不随尺度j的变化而变化。这为小波变换实现信号中奇异点的辨识提供[1了0]理论依据[11,12,13]。在实际应用中,式(1)被定义为

相应的,在二进制小波变换中,令a=2j,对式(3)两边取以2为底的对数,则

在李氏指数α的计算过程中,应在计算出的斜率的基础上再减去0.5才为α的值。

通常在理论上,对奇异点位置的辨识,依赖于正负模极大值线在低尺度上的交点。正负模极大值线可以延伸至尺度接近零处,保证两曲线相交,从而准确的找到信号奇异点的位置[12]。在实际应用过程中,关键是选取合适的小波函数,使得正负模极大值线能相较交于一点,从而能够准确地辨识出奇异点的位置。

2 风速信号奇异点的辨识与修正

对奇异点位置的辨识,依赖于正负模极大值线在低尺度上的交点。尽管理论上,正负模极大值线可以延伸至尺度接近零处,保证两曲线相交,从而准确地找到信号奇异点的位置[7,8,12],但是,在实际应用过程中,由于小波函数的选取,分解层数的确定等因素的影响,正负模极大值线往往不能相较交于一点,这也就不能够准确辨识出奇异点的位置。由傅里叶变换理论可知[10],一个信号越平滑,其高频分量越少,反之,奇异点的高频分量则相对较多,因此,在小波分解的高频分量中,奇异点所对应的分解系数值也相对较大。于是,本文提出了一种阈值判断与李氏指数相结合的奇异点辨识方法,该方法在原有李氏指数判定的基础上,结合利用阈值来判定出信号奇异性,并能够对奇异点的位置进行辨识。

风速本身携带着噪声,为了区别奇异点和噪声,在绘制模极大值线时,由小波分解后的低频信号(即较大尺度上的信号)为起点搜索模极大值线上的传播点,这是由于,噪声对应的小波分解系数随着尺度的增加,其幅值逐渐减小,而奇异点对应的分解系数随着尺度的增加,其幅值逐渐增大,这使得最大尺度上的分解系数主要受正常信号和奇异点影响,以这些点为起点寻找模极大值线,可以排除了很大一部分噪声对风速信号的影响,而剩余的极大值线根据幅值随尺度的变化情况又可以判断出一小部分噪声。

2.1 静态小波分解中小波基的确定

在静态小波分解过程中,首要要确定合理的小波基[13,14]和合适的滤波器宽度。小波基的选择过程中,一方面,小波滤波器的宽度不能太短,否则会在分析结果中引入不希望出现的人工痕迹;另一方面,滤波器的宽度又不能太大,尽管当滤波器宽度较大时,能够很好地反映时间序列的特征,但是使用这样的小波滤波器可能导致更多的小波变换系数被边界影响,局部化等级减少以及计算量增加等问题。

在风速信号的奇异点辨识过程中,本文对多种小波函数的分解效果进行了分析对比。Haar小波变换的细节系数含有明显的平顶波,光滑性差,这主要是受到其块状结构的影响;Coiflet系列小波的对称性很好,但其支撑范围明显变宽,对于奇异点辨识,支撑范围越短越好。Daubechies系列小波和Symlets A小波族变换后的结果没有太大的不同,但考虑到Daubechies系列小波对称性较差,并且可能在小波变换的高层细节部分产生明显的“鲨鱼鳍”痕迹[12,13],Symlets A小波族中sym4小波具有正交性,双正交性和紧支集,可进行连续小波变换和离散小波变换;光滑且接近对称,其高层细节部分不会产生明显受小波形状影响的多分辨率分析成分,并且该小波支撑范围为7,滤波器长度为8,消失矩为4,扩展性很好,可以比较灵活的权衡支集长度带来的边界问题。基于以上分析,本文选取sym4作为小波基。

2.2 奇异点的辨识

利用模极大值法辨识风速信号中的奇异点时,首先对最小尺度上的细节系数进行阈值判断,以初步确定奇异点的位置。由于在各尺度分解系数中,尺度1上各系数所对应的时间点与风速数据的采样时刻相比,偏移最小,于是,本文将尺度1上辨识出来的奇异点位置作为风速数据奇异点的发生时刻。

设定判断阈值为

其中,C为常数,取值0.5,这样能够最大限度的找到幅值变化较大的点,M和m分别为各个分辨尺度下,细节系数的最大值和最小值。当细节系数的值大于Thr1或者小于Thr2时,即认为该点为疑似奇异点。然后通过绘制模极大值线来计算李氏指数,以进一步判定风速信号的奇异性。

当李氏指数小于1时,即认为该条模极大值线对应的点为奇异点[14,15,16]。绘制模极大值线,首先寻找每级分辨尺度上与小波细节系数对应的模极大值点,并且正的模极大值点与负的模极大值点分开存储,这样能够保证所有的极大值线均是同符号数据的传播结果。然后,对于最大尺度J上的每一个正的极大值点x0,设其前后的极值点为x1和x2,x1对应的传播点为x′1,则x0对应的传播点将在区间(x′1,x2)上搜索。∀x′0∈(x′1,x2),若x’0=x0则x′0为x0的传播点,如果不存在这样的点,则以x0为界向左和右分别搜索,在(x′1,x2)上如果满足且xj∈(x′1,x2),那么,x′0为x0的传播点,并标记搜索方向,向左搜索flag=0。若flag=0,则在尺度j,j

2.3 奇异点的修正

在辨识出奇异点的位置后,本文利用自回归滑动平均模型ARMA(p,q)对各个奇异点进行修正,即[17-20]

其中:t为奇异点的位置;p和q是模型的自回归阶数和移动平均阶数;φ,θ是不为零的待定系数;εt是独立的误差项。

3 实例分析

本文以北京郊区密云某日的实测风速为原始数据,该序列每10 min采样一点,共取其中416点进行分析处理,如图1所示。

3.1 风速信号中奇异点的辨识

利用sym4对突变后的风速信号进行5层静态小波分解,并求出各尺度细节系数的局部极大值和极小值,如图2。

利用式(3)寻找尺度1上的疑似奇异点,即细节系数的值大于Thr1或者小于Thr2的点。通过搜索得到的疑似奇异点为12点,16点,133点,234点,285点,303点,366点,396点,403点,408点,412点以及415点。然后求得各疑似奇异点的传播点,绘制模极大值线,如图3。

根据模极大值线各传播点的幅值变化情况以及式(4)计算各疑似奇异点的李氏指数α。模极大值线上各点的幅值随尺度的增加而不断增加,并且李氏指数α<1时,该点即可以判定为真正的奇异点,其辨识结果如表1。

由表1可以得到,12点,16点,366点,396点,403点,408点,412点的李氏指数小于1,并且其传播点的幅值随尺度的增加而增加,因此,这8个点为真正的奇异点。而133点,234点,285点的李氏指数虽然也小于1,但是其传播点的幅值随尺度的增加而减小,因此,这些点为噪声。303点的李氏指数大于1,因此该点为正常点。

除此之外,虽然415点的李氏指数小于1,而且其传播点的幅值也随尺度的增加而增加,但考虑到415点紧邻边界,其奇异性可能受到边界的影响,因此本文通过对多组不同风速数据进行小波变换,分析其边界点的奇异性后发现,对于边界点处的细节系数,其模值一般都很大,在利用阈值进行奇异点初步辨识的过程中,经常将这些边界点辨识出来。然而,即使边界点为正常点,其李氏系数α的值也是有时小于1有时大于1,在1附近波动,因此,本文认为这些点受到边界的影响,其奇异性不可知。

经过辨识,最终得到在12点,16点,366点,396点,403点,408点,412点为奇异点;133点,234点,285点为噪声点;303点为正常点;415点为边界点,其奇异性不能确定。

3.2 风速信号奇异点的修正

辨识出奇异点的发生时刻后,本文将该时刻的风速数据采用式(6)进行修正。ARMA(p,q)模型的输入数据为奇异点出现以前的100个数据点。最后得到风速修正结果,如图4,其中,圆圈部分为修正后的风速值,每个圆圈包含编号最接近的2个点。

4 误差分析

在风速预测结果的误差分析中,常用平均绝对误差,平均相对误差,均方根误差三项指标进行衡量[21,22]。

平均绝对误差:

平均相对误差:

均方根误差:

与真实的风速值相比较,利用含有奇异点的风速信号得到的风速预测值与利用本文修正后的风速信号所得到的风速预测值的误差指标如表2。

通过对比发现,对于任何一项误差分析指标,经过修正后的信号都远小于存在突变点的信号,这说明本文提出的方法能够很好地辨识奇异点,并能对其进行修正。

5 结论

数据辨识 篇2

之时态、状态及能量小知识

一、危险源辨识包括3种时态:

1.过去时态(评价对残余风险的可承受度)、2.现在时态(评价现有控制措施情况下的风险)、3.将来时态(组织活动中或计划中可能带来的危险因素);

二、3种状态:

1.正常状态(指正常生产情况)、2.异常状态(指机器、设备试运转、停机及发生故障时)、3.紧急状态(指不可预见何时发生、可能带来重大危险的状况,如地震、火灾、爆炸等)

三、7种能量类型

1)机械能;可造成物体打击、划伤人体等后果的2)电能:可造成人体触电、产生静电、雷击等

3)热能:可以发生灼伤、高温等事故的4)化学能:可产生有腐蚀、中毒等后果的5)放射能:发生电离辐射等后果的;

6)生物因素:可引起传染、瘟疫等后果的病毒、细菌生物等

供电企业可靠性数据的辨识方法 篇3

为促进供电企业提高用户供电可靠性管理水平, 保障用户供电质量, 颁布了多项标准[1,2,3]。但是监督、管理、评价的前提是提交数据的准确性, 只有保证了数据准确可靠, 同业对标及供电企业可靠性评价才有意义[4]。研究如何通过技术手段和管理手段确保数据的真实性意义重大, 如何通过数据辨识和可靠性核查筛选出数据异常的企业, 使得可靠性评价公平合理。

1 数据辨识示意图

1) 根据可靠性技术指标的分类, 将技术指标辨识分为入围前指标数据辨识、入围后指标数据辨识。入围前指标数据辨识在入围评价前完成, 针对所有参评企业, 入围后指标辨识在分项评价前完成, 针对入围企业。

2) 入围前指标数据辨识指标包括用户平均停电次数AITC、总用户数。由于参评企业众多, 入围前辨识较为宽泛, 辨识指标较少, 旨在通过较少的工作量刷掉部分参评态度不严肃的企业, 称之为“海选”;

3) 入围后指标数据辨识针对入围供电企业, 分为多维、多角度辨识。具体包括评价指标的逻辑关系辨识 (逻辑辨识) 以及评价指标的历史数据辨识 (纵向辨识) 和评价指标离散度数据辨识 (横向辨识) 。逻辑辨识指标包含三个:停电用户平均停电次数AITCI、故障停电平均用户数MICF;纵向辨识指标包含故障类指标:故障停电平均停电次数AFTC, 停电用户平均停电次数AI-TCI、故障停电平均用户数MICF。入围后指标辨识较为严格, 辨识指标种类和数量较多, 旨在对入围企业的数据进行核查, 企业可以“申诉”, 提供相关资料佐证自己的指标数据, 通过“核查”—“上诉”—“核查”几个步骤, 逐渐筛选出数据掺入水分或者录入错误的企业, 名额空缺由各区域未入围排名第一企业递进, 进入入围后数据辨识流程, 直至45家入围企业指标数据辨识全部合格。其中横向离散度数据辨识在去伪存真的前提下, 让单项指标最优的企业交流该项指标提升措施经验, 为供电企业提供一个交流平台。

2 数据辨识流程图

数据辨识流程如图2所示, 包括如下步骤:

1) 获取供电企业可靠性指标数据, 进行指标间逻辑关系辨识, 辨识不通过, 提示存在不良数据, 结束辨识;

2) 如果步骤 (1) 的指标间逻辑关系辨识通过, 进行纵向历史数据辨识, 辨识不通过, 提示存在不良数据, 结束辨识;

3) 如果步骤 (2) 的纵向历史数据辨识通过, 进行横向离散度数据辨识, 辨识不通过, 提示存在不良数据, 结束辨识;如果步骤 (3) 的横向离散度数据辨识通过, 提示数据全部合格。

3 数据辨识判据表

根据对可靠性数据的分析挖掘, 各指标间的内在逻辑关系以及历史数据的关联性、数据的离散度等多角度的辨识, 给出各辨识判据见表1。

4 结束语

供电指标数据辨识法旨在完成对供电企业可靠性指标数据的预处理, 该方法系统地将可靠性指标不良数据辨识出来, 保证了可靠性指标数据的准确性。使得可靠性评价体系能够公平、公正、公开的选出业内标杆, 起到积极作用。

参考文献

[1]供电可靠性评价实施办法 (试行) [Z], 国家电力监管委员会2012.

[2]中华人民共和国国家经济贸易委员会, DL/T836-2003.供电系统用户供电可靠性评价规程[S].

[3]国家电力监管委员会, 中国电力企业联合会电力可靠性管理中心.2010年电力可靠性指标发布——电力可靠性趋势分析报告[R].2010, 5.

辨识并修改病句 篇4

(辨识并修改病句)

一、考点解说

1、考点:病句是指不符合语言规范的句子,能根据句子表达的需要和句子的结构进行辨识或修改病句。

2、题型:考查病句一般采用选择题。

3、复习:(1)掌握病句的几种基本类型。

(2)掌握辨识、修改病句的一般方法。

二、知识梳理(病句的基本类型)

1、用词不当

①感情色彩不当。如:他那认真刻苦的学习精神,值得我们每个同学效尤。(“效尤’的意思是“学坏的样子”,是贬义,用在这里不合适,应改为“学习”)

②关联词用错。如:只有坚持学习,就能提高阅读水平。(“只有”和“才”连用,应把“就”改为“才”)

2、搭配不当

①主谓搭配不当。如:他那崇高的革命品质,经常浮现在我的脑海中。(“品质”不能“浮现”,可改为“他那伟大的革命形象”)

②动宾搭配不当。如:上海科技开发中心聚集了一批热心为科技开发服务、善于经营管理的专业化队伍。(“聚集”的应该是“专业化人才”)

③主宾搭配不当。如:这最后一天的劳动是同学们最紧张、最愉快、最有意义的一天。(“劳动”与“一天”搭配不当,应删去“的劳动”)

④修辞语与中心词搭配不当。如:他在培育良种方面花了很大的心血。(“很大”与“心血”搭配不当,应改为“很多”)

3、成分残缺

①缺主语。如:通过学习雷锋的感人事迹,使我明白了许多做人的道理。(“使”字使“我”丧失了主语作用,所以应删去)

②缺宾语。如:看到他的照片,我便想起了当年我们一起玩耍、同桌共读。(这个句子缺少宾语中心词。应加上“的情景”)

4、语序不当

①逻辑语序不当。如:学校通过并研究了新的规章制度。(“通过”与“研究”顺序颠倒。应是先“研究”后“通过”)

②关联词语序不当。如:A.不但我信任他,而且信任他的朋友。B.我不但信任他,而且以前反对过他的人现在也信任他了。(两个分句是同—主语时,关联词语在主语后边。如例A,两个分句的主语都是“我”,“不但”应在主语“我”后边:两个分句主语不同时,关联词语在主语前边。如例B,两个分句主语分别是“我”“人”,关联词语“不但”应放在“我”前边)

5、前后矛盾

①前后不统一。如:能否刻苦钻研是提高学习成绩的关键。(“能”与“否”表达完全不同的两种情况,所以,应删去“能否”)

②否定多余。如:个别医生不讲医德,索要红包,医院领导对此并非不无责任。(“不无责任”即有责任,加上“并非”,意相悖,应去掉“并非”或去掉“不”)

③范围不清。如:人们一走进教学楼就会看到,所有关于澳门历史的图片和宣传画被挂在走廊的墙壁上。(“图片”包括“宣传画”,不宜并列,应说成“宣传画及其它图片”)

6、重复罗嗦

①中小学生课业负担过重是困扰我国基础教育的顽症疾病。(“顽症”和“疾病”重复,应删去其中一个)

②美国对伊进行军事打击的目的的为了摧毁其大规模杀伤性武器。(“目的”与“为了”重复,应删去其中一个)

③这届全运会会徽、吉祥物设计的应征者大多是以大学里的青年师生为主的。(“以……为主”就含有“大多”的意思,属重复)

三、典型例题

【例1】下列句子没有语病的一项是()

A、在学习中,我们要及时解决并发现存在的问题。

B、经过开展机动车使用乙醇汽油的活动,使百色城的空气更加清新。

C、一部分家长过分溺爱孩子,使许多学生缺乏自制力,生活上互相攀比。

D、“梁山伯与祝英台”这个凄婉的爱情故事,可以说是家喻户晓的。

解析:A句词序不当,应为先“发现”后“解决”; B句缺主语,删去“经过”或“使”;C句“过分”与“溺爱”重复罗嗦,删去“过分”。答案:D

【例2】下列句子没有语病的一项是()

A、各级机关要厉行节约,严格执行空调温控标准,充分发挥表率作用。

B、美国科学家日前宣布,他们找到了一种更有效的利用核能制取氢气。

C、各地各部门都把改善民生、保障民生、重视民生作为一切工作的落脚点和出发点。

D、切实减轻农民负担,是能否建设社会主义新农村的关键。

解析:B句的成分残缺,缺宾语中心语,应加上“的方法”;C句的语序不当,应调整为“重视民生、保障民生、改善民生”;D句前后矛盾,前面“减轻农民负担”是一个方面,而后面的“能否„„”表达的是正反两个方面,应删去“能否”。答案:A

四、检测练习

1、下列句子没有语病的一句是().......

A、社区希望通过开展节约用电教育,防止人们不浪费用电。

B、学生不但喜欢这种游戏,而且青年教师也喜欢。

C、我们要引导青少年用美的眼光去看世界,用美的心灵去感受世界。

D、通过这次社会实践活动,使我们磨练了意志,增长了见识。

2、下列句子没有语病的一句是().......

A、学生写作文切忌不要胡编乱造。

B、刘翔这个名字对中国人都很熟悉。

C、北京办奥运,既展示传统文化又展现精神风貌,可谓两全其美。

D、经过全市人民的共同努力,我市荣获国家园林城市。

3、下列句子没有语病的一句是().......

A、同学们在考场上能否保持—颗平常心,是正常发挥水平的关键。

B、谁也不会否认珠江不是向东流的。

C、我虽然和他只有一面之缘,但从他那里学到了许多东西,包括他的学识和人品。

D、有关部门严肃处理了某些加油站擅自哄抬汽油价格。

4、下列句子没有语病的一句是().......

A、学校开展了以“八荣八耻”为主题的演讲。

B、团结一致是能否搞好工作的关键。

C、通过开展“红色之旅”活动,使百色有了更高的知名度。

D、我在留学的时候,只在杂志上登过几篇不好的文章。

5、下列句子没有语病的一句是().......

A、气象台的天气预报果然灵验,今天是个大晴天。

B、经过全市人民的共同努力,使我市的空气质量状况有了明显改善。

C、诸葛亮超人的智慧,过人的胆识,是刘备能否建功立业的关键。

D、在现代化建设中,我们要充分吸收一切国外的先进经验。

6、下列句子没有语病的一句是().......

A、为了防止自行车被盗事件不再发生,学校要求全体同学讲自行车放入学校车棚。

B、朗读水平能否得到提高,取决于我们是否能够每天按要求诵读课文。

C、没有人能够告诉贾里三个邱士力的故事究竟是否真实。

D、《扬州日报》《扬州晚报》最近联合组织开展了评选“扬州市十大教育新闻人物”。

7、下列句子没有语病的一句是().......

A、不闯红灯,是衡量一个公民素质高低的重要标志。

B、在节约型社会里,人们有效利用资源进一步增强。

C、网络作为传媒,必须承担社会教育责任。

D、坚决打击制作、销售盗版音像制品,切实维持知识产权。

8、下列句子没有语病的一句是().......

A、切实减轻中小学生过重的学习负担,是能否实施素质教育的关键。

B、著名京剧表演艺术家梅兰芳先生的祖籍是江苏泰州人。

C、张明不仅知道这件事,而且全班同学都知道了。

D、学校的几个领导正在研究如何加强学生思想道德教育的问题。

9、下列句子没有语病的一句是().......

A、历经近30年的磋商与努力,大陆与台湾直接三通的构想终于成为了现实。

B、农民工返乡和大学毕业生就业难的问题,广泛引起了全社会的极大关注。

C、教育部要求全国各级各类学校实施晨检,进一步落实甲型H1N1流感防控。

D、通过开展“城乡环境综合治理”活动,使我市环境卫生状况有了很大改变。

10、下列句子没有语病的一句是().......

A、看到义务工作者全心全意为北京奥运会忘我的工作,使我很受教育。

B、新世纪启动的国家课程改革,在苏州实验区已经取得了阶段性的成果。

C、改革开放二十多年来,中国人的生活水平有了明显的增强。

D、不知为什么今天来看排球比赛的人数比上一次少了一倍。

11、下列句子没有语病的一句是().......

A、扬州被评为“联合国最佳人居环境奖”的称号。

B、经过大家的共同努力,使我们完成了制作班级网页的工作。

C、他的艺术见解独到、深刻,常被邀请到高校演讲,深受学生欢迎。

D、由于运用了科学的复习方法,他的学习效率有了很大改进。

12、下列句子没有语病的一句是().......

A、为了防止类似的恶性事故不再发生,我们一定要加强管理,采取严密的防范措施。

B、为了搞好工作,我们要广泛征求、虚心接受群众意见。

C、经过老师和同学们的帮助,才使他打开了思路,掌握了解题方法,成绩有了明显提高。

D、教育观念能否从根本上转变,是我们解决全面推进素质教育进程问题的重要保证。

13、下列句子没有语病的一句是().......

A、良好的心态是神舟七号航天员能否取得成功的重要因素。

B、我们应该防止类似”三鹿奶粉事件”的情况不再发生。

C、通过这次灾后重建,使我们充分认识到团结一致、众志成城的重要性。

D、生活有多广阔,语文就有多广阔,不仅要在课堂上学语文,还要在生活中学语文。

14、下列句子没有语病的一句是().......

A、各地中小学完善和建立了校园安全预防工作机制。

B、新时代的教育应该培养学生善于观察、善于思考、善于创造的水平。

C、在经济社会快速发展的推动下,使居民的收入水平和社会购买力大幅度提高。

D、人类历史发展的过程,就是各种文明不断交流、融合、创新的过程。

15、下列句子没有语病的一句是().......

A、青岛是一个美丽的城市,夏日的海滨是人们避暑纳凉的好季节。

B、能否贯彻落实科学发展观,是构建和谐社会、促进经济可持续发展的重要保证。

C、宽带网不仅能浏览信息,还可以提供网上视频点播和远程教育等智能化、个性化。

D、目前,全球用水增长速度达到人口增长速度的两倍,由此导致水资源短缺状况加剧。

16、下列句子没有语病的一句是().......

A、学校开展的感恩活动,掀起了同学间互帮、互助、互学,增进了彼此的友谊。

B、为了防止失窃事件不再发生,保安部门采取了切实有效的措施。

C、扬州获得2006年“联合国人居奖”的原因是全市人民共同努力的结果。

D、能否培养学生的思维能力,是衡量一节课是否成功的重要标准。

17、下列句子没有语病的一句是().......

A、对于大学毕业生就业难的问题,引起了全社会的极大关注。

B、让孩子远离网吧,健康成长,这是许多家长的心愿。

C、在第49届世乒赛上,中国队囊括并包揽了五个项目的金牌。

D、“阳光体育活动”要求学生每天参加户外体育锻炼的时间不少于一小时,这对青少年来说,无疑不是个好消息。

参考答案:

数据辨识 篇5

1 构型管理

构型管理是指从产品定义、设计、生产到产品支援的整个生命周期内的管理程序。它通过对产品标识、更改、审核和纪实等过程的控制,从而建立并维持产品的性能、功能特性和物理特性与产品的设计要求和使用信息之间的一致。

构型管理过程包括构型标识、构型控制、构型纪实和构型审核等要素。构型标识是构型管理的基础,是对产品进行定义的过程,构型控制用于管理产品构型项及相关构型文件的更改、偏离和超差。

构型纪实主要保证在产品的整个生命周期内,提供产品构型和相关构型文件的正确的、实时的信息渠道,对产品相关的构型信息进行记录、关联、存储和维护。

构型审核通过对文件、产品和记录的检查,以及对程序、流程和操作系统的评估,来检验产品是否达到了所要求的特征(功能特性和物理特性),并且产品的设计已被准确地记录在文件之中。

本文主要对飞行模拟培训设备数据包的构型标识文件进行分析,形成飞行模拟培训设备数据包的构型文件,从而方便对飞行训练设备数据包进行构型控制。

2 飞行模拟培训设备数据包构型标识辨识过程分析

构型标识:也叫产品定义,主要包括:

1)为产品和产品构型信息建立结构关系;

2)选择、定义、记录、并通过基线(冻结)产品属性;

3)为每一个产品和产品构型信息分配唯一的标识。

一般来说,飞行模拟培训设备数据包构型数据应该包括但不限于:

1)描述从数据包整体需求或更高层训练设备要求分配而来的数据包研制需求、功能定义、数据包各个分系统性能/物理特征/指标要求/设计约束、接口特性、系统设计方案、系统原理架构等。相关的构型文件包括系统需求文档、通用技术规范(符合性矩阵)、系统原理图、产品(系统、设备、软件)技术规范、接口控制文件/模型,软件需求等;

2)根据各个分系统的仿真需求,分析实现各个系统仿真所需的详细设计数据,包括工程图纸/模型、系统/部件/零组件清单、工艺规范和材料规范清单、机载软件构型设计资料,主要包括软件需求文档、软件设计文档等;

3)数据包的使用的相关产品说明书、服务支持资料等。

飞行模拟培训设备数据包构型标识辨识过程如图1所示:

图中,飞行模拟培训设备数据包的构型标识被分为三个阶段:

第一阶段是明确飞行模拟培训设备数据包需求,确定各个整体要求,形成飞行模拟机训练设备数据包构型需求项。

第二阶段是构型需求项映射阶段,将飞行模拟培训设备数据包整体需求映射到部件或系统级数据文件中,即定义相关构型项的数据或构型文件,形成具体的训练设备数据数据包构成。

第三个阶段,确定产品结构,形成飞行模拟培训设备数据包说明文件,跟踪维护设备数据。

经过对飞行模拟培训设备数据包构型标识分析,形成相关构型文件,主要类型如下:

1)构型/设计数据;

2)仿真建模数据;

3)校验数据;

4)验证数据;

5)匹配证明数据;

6)系统确认数据。

对于特定机型数据包,其具体的构型标识文件主要包含在以下的飞机设计文件中:

1)飞机手册类数据;

2)飞机设计数模,包括三维数模,二维图纸等;

3)系统设计规范等文件;

4)系统软件设备以及相关文档;

5)系统的仿真建模数据;

6)试飞验证数据。

通过对飞行模拟培训设备数据包构型标识辨识过程分析,得出飞行模拟培训设备数据包的构型标识即构型文件,形成飞行训练设备数据包的构型控制基础,保证飞行模拟培训设备数据包的构型与飞机构型的一致性。

3 总结

在飞行模拟培训设备数据包开发中采用构型管理的理念,结合飞机构型管理的实际情况,通过对飞行模拟培训设备数据包进行构型标识辨识过程分析,可以保证飞行模拟培训设备构型状态和飞机设计状态的一致性、有效性和可追溯性,方便建立飞行模拟培训设备数据包的构型文件,完善构型管理基础工作。

因此,对民用飞机飞行模拟培训设备数据包的构型标识进行深入的研究,可以保证飞行模拟培训设备和飞机构型的一致性,对飞行模拟培训设备数据包研制有着重要意义。

参考文献

[1]CCAR60飞行模拟设备的鉴定和使用规则[S].中国民用航空局,2005,3.

[2]杨玺.飞机构型技术初探[J].北京航空航天大学学报,2000.

[3]于勇,范玉清.飞机构型管理研究与应用[J].北京航空航天大学学报,2005.

数据辨识 篇6

不良数据辨识可排除量测采样数据中偶然出现的少数不良数据,是提高工业系统自动化监测和状态估计可靠性的有效手段。对于电网SCADA(Supervisory Control and Data Acquisition,数据采集与监视控制)系统的监测数据而言,其作用尤为突出[1,2]。

迄今为止,已有大量学者对不良数据辨识算法进行了研究。总体来看,常用的不良数据辨识算法可分为两大类。其一是基于数据挖掘理论的算法[3],该类算法一般应用K-means聚类,将样本数据中的良好数据和不良数据分开,实现不良数据辨识。其二是基于神经网络方法对样本数据进行智能化辨识[4]。然而K-means聚类无法智能判别数据样本类别数,当样本中不存在不良数据时,K-means聚类也会强行将良好数据样本分类,造成了辨识精度下降和使用不便。另外,K-means聚类的精度和计算速度还和聚类初始值有关。神经网络方法可以智能辨别样本类别,提高了不良数据辨识算法的辨识精度和速度,但其在系统改变运行状态或结构调整后,需要重新训练样本数据,才能获得良好的精度。

为克服上述算法的缺陷,不少学者提出利用GSA(Gap Statistic Algorithm)算法对不良数据进行辨识。GSA算法实际上也属于数据挖掘算法的一种,其通过聚类离散度的gap值或肘形判据角来判别最佳的聚类类别数,克服了传统K-means算法在聚类个数选择上的缺陷,实现了无教师指导的不良数据辨识。但传统的GSA方法没有考虑初始聚类中心的优化选择,常常终止于局部最优,不适合用于发现非凸状的聚类,对噪声和异常数据敏感,计算耗时高,在大数据量情况下这一问题尤为突出,因此仍存在一定缺陷。

针对传统GSA算法的缺陷,本文利用最大最小距离法选取初始聚类中心,使GSA算法过程中的初始聚类中心稳定,改善了GSA的辨识精度,减少了计算量。

1 GSA的肘形判据理论

GSA是确定最佳聚类个数k的算法,它将待检测数据集的聚类离散度与参考数据集的聚类离散度值的期望进行对比。当聚类间隙gap的值最大时,所对应的k就是最佳聚类个数。参考值分布可用待测数据的正常值域的均匀分布来实现。

传统间隙统计算法(GSA)的计算步骤如下:

(1)根据聚类算法将待测数据聚类,聚类个数k=1,2,…,K(K为最大聚类个,一般K=n/2,n为数据对象的个数),根据聚类结果分别计算待测数据集的Wk:

(2)给出B组参考数据集,计算:

(3)gap(k)=E(log(Wk))-log(Wk),选取最小k值满足:

基于GSA的肘形判据原理,图一所示为聚类个数2时,lnWk与聚类数k的关系曲线。在k≥2时,曲线明显变平坦。

根据图形求曲线在各个k处的曲折度(肘形特征),即各个折点处两条直线段的向上的夹角θ(k)。由几何知识易知,已知k-1,k,k+1以及lnWk-1,lnWk,lnWk+1,则可直接求取θ(k)。

满足条件θ(k)<θ(k+1)的最小k值即为最佳的聚类个数。

从图一中可以看出,使用GSA肘形判据,可以对最佳聚类个数大于2的数据集进行判定。当最佳聚类个数为1时,说明该数据集为正常数据集,无不良数据。GSA算法通过计算参考数据集可以辨识最佳聚类数为1的情况。因此,将肘形判据和GSA算法相结合,改进GSA算法,可以降低参考数据集的影响并提高算法效率。融合后,GSA算法的过程如下:

(1)计算参考数据集k=1和2时的E(lnWk),用以计算gap(1)和gap(2)。

(2)计算待测数据集的lnWk,当k≥2时,使用公式(8)计算θ(k)。

当k=1时,若gap(1)≥gap(1)-gap(2),则最佳聚类个数为1,无不良数据,辨识结束。否则,继续辨识,直到最小k值的满足θ(k)<θ(k+1)为止。

2 最大最小距离法

GSA算法以及GSA肘形判据解决了K-means聚类中最佳聚类个数的确定问题,但是K-means聚类算法存在对初始聚类中心敏感的问题。K-means算法流程为随机地选取k个点作为聚类初值,再利用迭代的重定位技术进行聚类,直到聚类结果稳定。因此,聚类初值不同可能会导致聚类结果不同。使用最大最小距离法可以使选取的聚类初值稳定。该方法的基本思想是尽可能选取相互距离较远的数据对象作为聚类初值,目的是避免选取的初值过多地出现在同一簇中。

设聚类个数为k,最大最小距离法原理如下:

(1)设有数据集{xn},随机选取其中一个数据对象xi作为聚类中心。令Z1=xi。

(2)搜索{xn},寻找{xn}中与Z1距离最大的点,记为Z2。

(3)令{yl}表示剩余的数据对象集,yj∈{yl}。计算yj与Z1和Z2的距离dj1和dj2。令dj=min{dj1,dj2},j=1,2,…,l。

(4)选取{dl}中的最大值,即max{d1,d2,…,dl}值对应的点作为第三个聚类中心Z3。

(5)重复(3)、(4)过程,将剩余的数据对象和选出的聚类中心相比较,直到选取出k个聚类中心为止。

最大最小距离法可以保证每次取到的新的聚类中心离已有的聚类中心的距离都比较远,从而使得聚类初值稳定。将最大最小距离法融合到GSA辨识过程,其流程如下:

(1)使用最大最小距离法选取k个初始聚类中心。

(2)将所有数据对象与k个聚类中心比较并归类,对归类结果重新计算k个聚类中心。

(3)将新聚类中心带入重新执行步骤(2),直到聚类结果稳定。将聚类结果输出用于计算GSA算法中的lnWk。

3 GSA肘形判据和最大最小距离法的不良数据辨识

将最大最小距离法融合到基于GSA肘形判据的不良数据辨识过程中,得出基于优化GSA的不良数据辨识流程,如图二所示。

输入k值,初始值为1,在k≥2时,按最大最小距离法选取待检测数据的初始聚类中心,迭代聚类直到测度函数lnWk变化值小于阈值为止。当k≤2时,计算参考数据集的lnWk,并在k=2时判断gap(1)≥gap(2)-s(2)是否成立,不成立,则有不良数据。令k=k+1并对待测数据集继续聚类,当k≥4时,判断θ(k-2)<θ(k-1)是否成立,成立则最佳聚类个数为k-2。

4 基于优化GSA的不良数据辨识仿真验证

为了验证优化GSA算法的有效性,本文使用聚类分析研究中常用的标准数据集对算法进行仿真实验,并将结果与GSA算法进行比较。数据集选用UCI标准数据库的IRIS数据集[7]。该数据集维度为4(4个属性),样本数量为150个。IRIS数据集已根据ID顺序,将数据样本分为三类,每50个样本为一类。因此,IRIS数据集可以作为检验本文算法的标准数据集。图三为IRIS数据集在属性1上的散点分布图。

图四为IRIS中各数据在四维空间中对平均中心的欧氏距离。观察图像可见,通过欧氏距离这一度量函数可以将数据集在四维空间向量上分为三类,但会出现孤立点,且第三类的数据容易被误检。

由于GSA算法要使用到参考数据集,对应各维度参数按照均匀分布的原则生成参考数据集,数据集部分数据如表一所示。

得到参考数据集后,可分别使用传统GSA算法和本文优化GSA算法对IRIS数据集进行一维度和四维度聚类仿真。仿真结果如表二所示。观察表二发现,传统GSA算法和优化GSA算法均将数据样本正确聚类为三类(聚类ID号为1、2、3),但每个聚类中的元素并不相同。

表三将传统GSA算法和优化GSA算法结果进行对比。易见,由于优化了聚类中心的选择,加速了聚类计算时迭代收敛性,减少了迭代次数,所以无论在一维数据聚类或是在四维数据聚类中,本文所提的优化GSA算法的正确率和计算耗时均优于传统GSA算法。

5 结束语

本文将最大最小距离法应用于K-means聚类的聚类初值选取,优化了GSA算法。通过与传统GSA算法比较发现,优化GSA算法在正确率和计算耗时方面具有明显优势。

参考文献

[1]于尔铿.电力系统状态估计[M].北京:水利电力出版社,1985.

[2]诸骏伟.电力系统分析(第一版)[M].北京:中国电力出版社,1998.

[3]刘耀年,曾健.电力系统状态估计中的不良数据辨识及其处理[J].东北电力学院学报,1995,15(02):58-64.

[4]叶学勇,吴军基,杨伟,等.基于神经网络的电力系统不良数据的修正[J].电网技术,2007,31(02):173-175.

[5]张斌.基于GSA的数据挖掘在电力系统不良数据辨识中的应用[D].南京:南京理工大学,2003.

数据辨识 篇7

近年来,配电自动化的建设取得了突飞猛进的发展,北京、厦门等地4个国家电网公司第一批配电自动化试点项目已经通过实用化验收,南京、成都等地19个国家电网公司第二批配电自动化试点项目已经通过工程验收。

对于配电自动化系统,由于配电终端(FTU、DTU等)工作在户外恶劣环境,且通信通道难免受到短暂干扰,还存在由于终端数量巨大而造成数据采集非同一时间断面等问题,因此采集到的数据难免存在短暂大偏差(由于终端采样异常、复位或受到干扰)、持续大偏差(由于互感器原因或系数配置错误)、数据长期不刷新(由于通道中断、终端故障或蓄电池能量用尽)、数据矛盾(由于相关数据采样时间间隔过长且负荷变化较快)等现象。这些不良数据不仅妨碍了对配电网的正常运行监控,而且对配电网故障处理、负荷转供和优化运行等造成严重的影响。

状态估计技术是一种利用测量数据的相关度和冗余度,采用计算机技术来对运行参数进行处理,有效获得电力系统实时状态信息的计算方法[1],在这方面已经取得了许多研究成果:比如基于支路电流的配电网状态估计[2,3,4]、基于支路功率的配电状态估计[5]、中压配电网分段状态估计法[6]、基于等效电流量测变换的电力系统状态估计方法[7]、基于模糊匹配潮流的配电网状态估计方法[8]、基于广义岭估计的电力系统谐波状态估计[9]。

现实中的配电自动化系统在进行状态估计时会遇到下列困难:

a.电流、有功功率、无功功率均为同一终端采集,因此并不独立,即若其一出现错误,则其他两者必然也会出现错误,所以不能利用三者的关系实现容错;

b.三相不平衡,沿线电压降落小且电压量测精度不高,有些节点甚至未进行电压量测;

c.馈线参数,尤其是三相参数难以准确获得;

d.基于最小二乘法的状态估计,往往受到个别粗大误差的影响,使一些本来质量较高的数据经过状态估计后也较大地偏离了实际值。

不良数据辨识是另一类剔除粗大误差和提高数据质量的方法,文献[10]综述了电力系统不良数据检测与辨识方法的现状与发展;文献[11]提出一种突变量启动的不良数据辨识与网络结线分析方法;文献[12]结合配电网从电源至末梢方向电压、电流的分布规律,提出一种量测数据可信度评估方法;文献[13]提出了一种基于同步测量信息的拓扑错误辨识算法对各类拓扑错误进行有效辨识;文献[14]针对不良数据的检测和辨识,分析了传统量测量残差检测和突变检测方法优缺点。

对于实施了配电自动化的电缆配电网,环网柜母线存在电流平衡关系,环网柜间直接连接而无负荷馈出的馈线段两端的开关流过的电流应当相等。本文提出一种利用这些由网络拓扑和运行方式决定的潮流约束关系,进行配电网不良数据辨识与修正的方法。

1 基本原理

1.1 母线模型

对于电缆配电网的10 kV母线(包括10 kV环网柜或开闭所母线、10 kV电缆T接点等),其任何一相可以统一抽象为图1所示的模型。图中,箭头表示潮流的方向;方块代表开关,实心代表合闸,空心代表分闸。对于开环运行配电网的母线,必然有一个开关为潮流流入开关,称为“入点”(如开关A);其余的合闸开关称为“出点”,它们或为将潮流向其他母线传递的开关(如B2),或为负荷供出开关(如C);与母线相连的开关中还有可能有处于分闸状态的联络开关(如B1)。流过一条母线的各个开关的负荷(可以是电流、有功功率、无功功率)应符合式(1)的负荷平衡约束:

其中,IR(t)为该母线上“入点”开关流过的电流;Ii(t)为非“入点”开关i流过的电流;FR为该母线上所有非“入点”开关的集合。

考虑到互感器的精度和采样的非同时性,式(1)不可能严格成立,在实际当中可在式(2)满足时即认为式(1)成立:

其中,εB为最大允许误差。

根据对国网公司23个城市配电自动化系统遥测数据质量的现场考察,并考虑到相关标准中遥测综合误差小于1.5%,且式(1)与多个采集量有关,并且考虑到电流互感器(TA)误差特性的影响,εB一般可依式(3)取值。

其中,IN为电流互感器额定电流。

1.2 母线“入点”和“出点”的确定

对于开环运行的配电网,潮流方向总是由电源点指向末梢。据此,根据开关的状态信息进行网络拓扑分析,就能得出流过各个开关的潮流的方向[15]。

各个开关状态信息的可靠性是网络拓扑分析正确性的决定因素,在保障开关状态信息可靠性方面已经广泛采取了许多措施,如开关状态信息采用“双点遥信”、定期频繁总召配电终端全数据、开关状态与事件顺序记录(SOE)核对确认等,可以认为配电网的开关状态是可以可靠获知的。

根据配电网开关状态进行网络拓扑分析,就能得出各个开关流过潮流的方向,从而确定相应母线的“入点”和“出点”。

1.3 数据质量评价

对于配电网的任何一相,根据数据间的相关性,采用奖励加分的方式对数据的可信程度进行评价,加分可依据下列原则。

原则1对于配电网的任何一相,若与一条母线相连的各个开关均有效地采集到负荷数据,并且所采集的负荷数据符合式(2)的约束,则与该母线相连的各个开关的该相负荷数据可信度各加1分。

原则2对于配电网的任何一相,若直接相连的2个开关S1和S2(其中一个若是一条母线的“入点”,另一个必然是另一条母线的“出点”,此外,它们也有可能是联络开关)均有效地采集到负荷数据,并且所采集的负荷数据符合式(4)(即基本相等),则该2个开关该相负荷数据的可信度各加1分。

其中,εK的取值可仿照式(3)确定,当流过开关S1和S2的电流均小于其电流互感器的额定电流的10%时,εK取4.0%,否则εK取2.0%。

并且有如下规则。

a.若以S1或S2为“入点”的母线所连接的各个开关所采集的该相负荷数据符合式(2)的约束,则对与该母线相连的其余合闸开关该相负荷数据的可信度各加1分。

b.若以S1或S2为“出点”的母线所连接的各个开关所采集的该相负荷数据符合式(2)的约束,则对与该母线相连的潮流流入开关(即该母线的“入点”)该相负荷数据的可信度加1分。

原则3对于品质标识为“老数据”的采集负荷数据,将其等同为未采集负荷数据对待。

1.4 数据质量评价步骤

对负荷数据质量的评价可以采取下列步骤:

a.根据各个开关的状态进行网络拓扑分析,确定相应母线的“入点”和“出点”;

b.所有开关的可信度初值设置为0;

c.遍历所有的母线,并分别按照原则1进行加分评价;

d.遍历所有直接连接的开关,并分别按照原则2进行加分评价。

采取上述步骤后,最终可以得出各个开关所采集负荷数据的可信度数值。

1.5 不良数据辨识

不良数据比较容易辨识,往往有下列几种类型:

a.与某条母线相连的开关的负荷数据不符合式(2)的负荷平衡约束;

b.2个直接连接的开关的负荷数据存在较大的差别;

c.流过处于分闸状态的开关的负荷大于零漂值;

d.处于“孤岛”状态的子网络中的开关仍流过负荷。

1.6 数据修正

在大量负荷数据采集正确,仅有少量不良数据的情况下,利用数据的冗余及约束关系,可以对不良数据进行修正,对“老数据”或未采集数据进行估计,具体方法如下。

a.按1.4节方法对负荷数据质量进行评价。

b.若2个直接连接的开关的负荷数据基本相等,而可信度不同,则它们的可信度都采用较大的可信度。

c.若2个直接连接的开关的负荷数据存在较大的差别,且它们的可信度存在差别,则将可信度小的开关的负荷数据和可信度用可信度大的开关的负荷数据和可信度替代。

d.若与某条母线相连的开关的负荷数据不符合式(2)的负荷平衡约束,且潮流流入开关的可信度不是最低,则流过可信度最低的开关的负荷之和为流过潮流流入开关的负荷与流过其余开关的负荷之差,若只有一个可信度最低的开关,则得出的就是该开关的估计负荷。

e.若与某条母线相连的开关的负荷数据不符合式(2)的负荷平衡约束,且潮流流入开关的可信度最低而其余开关的可信度都比它高,则潮流流入开关的负荷用流过其余开关的负荷之和替代。

f.若经过修正的是“老数据”或未采集数据,则将其视为“有效采集数据”对待。

g.再次进行1.4节描述的负荷数据质量评价。

h.若与上一次数据质量评价时相比,所有开关的可信度之和不再增加,则将得到的负荷数据作为状态估计结果,退出;否则返回步骤b。

2 实例

2.1 实例描述

对于图2所示的配电网,S为变电站出线开关;箭头表示潮流的方向;方块代表开关,实心代表采集到的状态为合闸,空心代表采集到的状态为分闸;不带“*”数值表示采集到的某一相电流信息(单位A),带“*”数值表示人为设定的不可信数据(单位A)。有31个开关,8条母线,电流互感器变比均为600∶5。

根据各个开关的状态进行网络拓扑分析,可知:开关A、E、L、P、Ω、X、K、W为相应母线的入点。

由图可见,采集到的数据存在相互矛盾。

2.2 数据质量评价

用B(i)表示开关i的可信度,采用1.4节方法进行数据质量评价。

首先清零B(A)—B(Π),然后进行母线遍历:

a.母线α不符合原则1,则B(A)=B(B)=B(C)=B(D)=0;

b.母线β不符合原则1,则B(E)=B(F)=B(G)=B(H)=0;

c.母线δ不符合原则1,则B(P)=B(Q)=B(R)=B(T)=0;

d.母线λ不符合原则1,则B(Ω)=B(Φ)=B(Π)=B(Γ)=0;

e.母线γ符合原则1,则B(U)=B(U)+1=1,B(V)=B(V)+1=1,B(W)=B(W)+1=1;

f.母线χ符合原则1,则B(L)=B(L)+1=1,B(M)=B(M)+1=1,B(N)=B(N)+1=1,B(O)=B(O)+1=1;

g.母线μ符合原则1,则B(K)=B(K)+1=1,B(I)=B(I)+1=1,B(J)=B(J)+1=1;

h.母线η符合原则1,则B(X)=B(X)+1=1,B(Y)=B(Y)+1=1,B(Z)=B(Z)+1=1,B(ψ)=B(ψ)+1=1。

各开关a相电流的可信度如表1所示。

接下来对所有直接连接的开关进行遍历:

a.比如S与A直接连接且符合原则2,但是母线α不符合式(2)的约束,则B(S)=B(S)+1=1,B(A)=B(A)+1=1;

b.B与E直接连接且符合原则2,但是母线α和β都不符合式(2)的约束,则B(B)=B(B)+1=1,B(E)=B(E)+1=1;

c.Q与U直接连接且符合原则2,且母线δ不符合式(2)的约束,而母线γ符合式(2)的约束,则B(Q)=B(Q)+1=1,B(U)=B(U)+1=2,B(W)=B(W)+1=2;

d.Z与W直接连接且符合原则2,母线η和γ符合式(2)的约束,则B(Z)=B(Z)+1=2,B(W)=B(W)+1=3,B(X)=B(X)+1=2,B(U)=B(U)+1=3,B(V)=B(V)+1=2;

e.O与X直接连接且符合原则2,母线χ和η都符合式(2)的约束,则B(O)=B(O)+1=2,B(X)=B(X)+1=3,B(L)=B(L)+1=2,B(Z)=B(Z)+1=3,B(ψ)=B(ψ)+1=2;

f.Φ与Y直接连接且符合原则2,且母线λ不符合式(2)的约束,而母线η符合式(2)的约束,但Y既不是母线的“入点”,也不是其“出点”,则B(Φ)=B(Φ)+1=1,B(Y)=B(Y)+1=2;

g.F与L直接连接但不符合原则2,M与P直接连接但不符合原则2,G与Ω直接连接但不符合原则2,K与Π直接连接但不符合原则2。

各个开关a相电流的可信度如表2所示,总的可信度为33。

2.3 数据修正

用I(i)表示开关i的a相电流值(单位A),采用1.6节方法进行数据修正:

a.比如F与L直接连接,它们的负荷数据存在较大差别,且B(L)>B(F),则I(F)=I(L)=160,B(F)=B(L)=2;

b.比如M与P直接连接,它们的负荷数据存在较大差别,且B(M)>B(P),则I(P)=I(M)=46,B(P)=B(M)=1;

c.比如K与Π直接连接,它们的负荷数据存在较大差别,且B(K)>B(Π),则I(Π)=I(K)=50,B(Π)=B(K)=1;

d.比如Q与U直接连接,它们的负荷数据基本相等,则B(Q)=B(U)=3,类似地B(Φ)=B(Y)=2,B(O)=B(X)=3;

e.比如与母线α相连的开关的负荷数据不符合式(2)的约束,且C和D的可信度最低,则流过C和D的负荷之和为I(C+D)=I(A)-I(B)=64;

f.与母线β相连的开关的负荷数据不符合式(2)的约束,且G和H的可信度最低,则流过G和H的负荷之和为I(G+H)=I(E)-I(F)=84。

第1次数据修正后的结果如图3中加粗数字所示。

再次进行1.4节描述的负荷数据质量评价,得到各个开关a相电流的可信度如表3所示。

总的可信度为50,比上次的33大,则继续进行数据修正:

a.B与E直接连接且负荷数据基本相等,但是B(E)>B(B),则B(B)=B(E)=2;

b.F与L直接连接且负荷数据基本相等,但是B(L)>B(F),则B(F)=B(L)=4;

c.M与P直接连接且负荷数据基本相等,但是B(M)>B(P),则B(P)=B(M)=2;

d.Q与U直接连接且负荷数据基本相等,但是B(U)>B(Q),则B(Q)=B(U)=3;

e.Ω与G直接连接,它们的负荷数据存在较大差别,且B(Ω)>B(G),则I(G)=I(Ω)=71,B(G)=B(Ω)=3;

f.与母线δ相连的开关的负荷数据不符合式(2)的约束,且R和T的可信度最低,则流过R和T的负荷之和为I(R+T)=I(P)-I(Q)=46。

第2次数据修正后的结果如图4中斜体数字所示。

再次进行1.4节描述的负荷数据质量评价,得到各个开关a相电流的可信度如表4所示。

总的可信度为63,比上次的50大,则继续进行数据修正,但是已经不能再得到更好的结果了,因此退出。

图4所示就是最终的数据修正结果,可见数据质量和可信度得到了很大的提高,虽然C和D的负荷仍无法估计出来,但它们之和可以估计出来且可信度较高,类似的还有R和T。

3 结论

a.对于全观测电缆配电网,由于受到由其拓扑决定的潮流约束关系,采集到的遥测信息存在冗余,为配电网不良数据辨识和修正提供了有利条件。

b.所建议的数据质量评价的3个原则和数据质量评价步骤,能够对电缆配电网采集数据的可信度进行分析。

c.所建议的基于可信度的配电网不良数据辨识和修正方法,在大量负荷数据采集正确,仅有少量不良数据的情况下,利用数据的冗余及约束关系,可以对不良数据进行修正,达到提高数据可信度的目的。

摘要:根据流过一条母线的各个开关的负荷间的平衡约束以及流过直接相连开关的负荷间的平衡约束,提出可信度分析的3个原则,建议数据质量评价步骤。在此基础上,提出一种基于可信度的配电网不良数据辨识与修正方法,根据节点数据的可信度差异对不良数据进行修正,以配电网数据的整体可信度最大为目标。实例结果表明:在仅有少量不良数据的情况下,所提方法可以对不良数据进行修正,达到提高数据可信度的目的。

数据辨识 篇8

基于多元统计投影方法的多元统计过程控制(Multivariable Statistical Process Control,MSPC)是高维数据分析处理的常用手段之一[1]。通过采用主元分析(Principal Component Analysis,PCA)、PLS(Partial Least Squares)等多元统计投影方法对历史过程数据进行分析,可以用少量隐变量表示这些内在因素,使产品质量的监控问题得以简化[2]。对过程变量的监控能掌握整个生产过程的平稳性和安全性。当异常事件发生时,通过对过程变量的监控容易找到原因,而这一点在仅仅针对质量指标的监控中是很难做到的。因此SPC技术有潜力成为面向危险源的安全监控系统中对安全工况和异常模式开展监测的有效工具[3,4]。

PLS通过多元统计投影用少量成分变量来表示多个相关变量的特征信息,起到数据降维的作用。低维特征空间的成分变量可用于过程监控和故障诊断,通过多变量控制图监视过程变化,变事后检验为事先预防[5]。经过建模后,由新的过程数据得出的统计指标作为监控变量,可利用低维特征空间平面上的椭圆形控制域或平方预测误差图(Square Prediction Error,SPE)来进行监控,及时发现异常事件,并可进一步分析故障来源并及时处理异常,保证过程的平稳运行[6]。

PLS在处理高维矩阵和数据线性相关性较强的情况下具有很好的效果,但它本质上是一种线性的方法。而对于像间歇过程这类非线性过程对象来说,PLS存在很大的局限,例如故障漏报等问题。

为了适应非线性过程对象,研究人员发展出了各种非线性PLS方法,例如引入神经网络结构的NNPLS、采用多项式的Poly PLS及采用样条函数的Spline PLS等[7,8]。无独有偶,在机器学习领域的研究者们也在试图解答类似的问题[9],基于机器学习理论提出的一种实用建模技术:支持向量机及核函数方法正在成为神经网络之外引入非线性关系的一种更好的选择。基于核函数的投影方法使传统回归向非线性回归的扩展成为可能[10,11]。Rosipal等人将核函数方法扩展到PLS,将PLS方法通过非线性投影操作,引入非线性环节,称为基于核函数的PLS方法(Kernel based PLS,KPLS)。相比于基于神经网络的统计方法,基于核函数的上述方法没有学习的局部极小问题,求解的结果是稳定的,而且还可以利用迭代方法直接求解[12]。

在机器学习领域,已经有一些针对KPLS方法及基于核函数的MSPC技术的研究[12,13,14]。这些研究表明基于核函数的多元统计方法能够更好地适应过程数据的非线性特征。然而,Rosipal给出的原始KPLS模型[12]没有给出数据重构的方法,这样就无法求取SPE控制图进行过程监测。本文提出一种采用KPLS模型进行数据重构的方法,并据此在特征空间中对SPE求解,得到一种新的基于KPLS的非线性过程监测的方法。

1 KPLS建模

1. 1 问题的提出

考虑分别经过标准化处理的自变量x和因变量y(x∈Rm,y∈Rq,m和q分别为其变量个数)。xi和yi分别为样本数据,i=1,…,N为样本个数。X和Y分别为所有测量样本xi和yi构成的数据阵X=[x1,…,xN]'∈RN×m,Y=[y1,…,yN]'∈RN×q。

首先来看PLS模型的表达式:

式中,TA、UA为经过第A次成分提取之后的N×A维成分(得分)向量矩阵,m×A维矩阵PA和q×A维矩阵QA代表对应的负荷矩阵,N×m维矩阵E(A)和N×q维矩阵Y(A)则为残差矩阵。

线性PLS建模从求取第一组成分的投影方向w1和v1开始,即求解下述极值问题:

现在引入非线性映射关系 Φ(·) ,xi经过非线性映射得到 Φ( xi) ∈ RM,X对应的M维维数据阵

则类似地,KPLS方法的优化目标是:

由于非线性映射 Φ(·) 并非显式给出,因此无法直接求解投影方向。可以转而参考PLS的等价求解形式来处理这个问题。

1. 2 KPLS回归模型

通过研究PLS模型相关矩阵和矢量的关系,Hoskuldsson等人发现,成分向量t1可以直接通过求解下述矩阵的第一个特征值的方法得到[15]:

而数据阵Y的得分u1可以通过下式求得:

根据机器学习中的Cover理论[16],数据结构之间的非线性关系在经过高维非线性映射之后很可能变得趋于线性。xi经过非线性映射,得到{Φ(xi)}Ni=1构成的高维空间可用特征空间来表示。利用特征空间,可以将KPLS采用非线性核函数写成线性PLS的等价表达式和[17]。

这里定义内积矩阵K,

其中数据向量的内积K( xi,xj) = < Φ( xi) ,Φ( xj) > ,可为不同形式的非线性核函数。采用这种形式重写t1和u1的求解方程:

这样可以在求解过程中避免出现显式的 Φ ,转而采用核函数形式的内积矩阵K。

通过对式的求解可以得到第一成分得分向量t1和u1,它们能够最好地代表数据Φ与Y,且自变量成分t1对因变量成分u1有着最强的解释能力[18]。在第一对成分t1与u1被提取后,分别实施Φ对t1的回归及Y对t1的回归。如果回归方程的达到满意精度,即偏差足够小,则算法终止;否则,将利用Φ被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复,得到ti和ui,i=1,…,A,直到能够达到一个比较满意的精度为止[18]。

KPLS模型对于因变量Y的回归式为[12]:

对于新的测量样本,由自变量xnew获得的因变量预测值即为:

上式即为完整的KPLS回归模型。实际建模计算中,KPLS可通过对NIPALS算法作类似调整来实现[12]。

2 数据重构与监控策略

虽然PLS源于寻找自变量与因变量关系的回归问题,但PLS方法的应用不仅仅限于此。PLS提取了自变量X中的变化特征———成分变量,用以对因变量Y进行预测。同时,成分变量还描述了自变量的模式特征,因此可以用来监测过程的异常变化[19]。

SPE指标是在对样本在高维空间映射点的重构误差的描述,这里需要构造成分变量T到自变量映射Φ的重构。这里构造成分变量T对Φ的最小二乘回归[17]:

于是,对于新数据xnew有:

则SPE统计量可以表示为:

其中B=U(T'KU)-1T',i=1,…,N,new,上式即样本点xi的SPE统计量。

将SPE用于监控时,根据Box方程,通过用加权χ2分布拟合从正常工况的样本数据所产生的参考分布来计算SPE控制限[20]。SPE控制限可由其近似分布式获得:

其中,g为加权SPE的参数,h为自由度。令a和b分别代表SPE估计的均值和方差,则g和h可近似取g=b/2a和h=2a2/b。这里使用χ2分布,隐含假设了误差是高斯分布的,但在实际应用中并不一定总是这样。但g和h直接从正常工况的样本数据中获得,因此在误差不遵循高斯分布的情况下,采用加权χ2分布也能够获得好的效果[20]。

采用KPLS实施的监控步骤如下:

1) 针对正常工况历史数据,确定自变量与因变量,建立KPLS回归模型,并确定SPE控制限;

2)对当前时刻,求取SPE并判断是否超限;

3)进入下一时刻,转入步骤(2)。

3 标准过程仿真

TE标准仿真平台适用于过程建模、过程优化和先进控制等诸多领域,关于TE过程的详细情况请参见文献[20]。

这里将KPLS和PLS方法用于TE过程的建模与在线监控。选择7个操作过程变量作为建模自变量,操作变量编号为1-5、7-8;选择4个过程测量变量,过程测量变量编号为6-15[20]。

首先来考察KPLS方法与线性PLS对过程的建模能力的比较。采样交叉验证方法确定成分选取的个数,并建立PLS与KPLS模型,自变量为操作变量,因变量为对应的过程测量值。为比较两种模型对因变量的回归能力,图1 和图2 给出了第一个因变量的预测值和实测值的关系图,可以看到KPLS的数据点比PLS的更靠近对角线,说明KPLS的预测值与实测值偏差更小。

下面考察通过两种模型对TE过程作在线监控的表现。文献[20]给出了仿真程序所提供的各种过程异常的情况,以及异常情况下过程是否稳定及其持续时间。本文从中选择了第一个异常过程和第九个异常过程作为分析对象。

先来看第一个异常过程,异常原因是A和C进料比不变,导致出现了过程变化,但过程运行还是稳定的。采用前节的SPE控制限计算方法,首先由训练样本生成各正常采样点的SPE值,然后通过近似公式求取SPE的95% 和99% 两个控制限。随后即可考察故障过程的监控情况。为了对照方便,这里把从正常过程的提取的测试样本的SPE与故障样本的SPE一并绘制在图3 和图4 中,前100 采样点为正常过程测试样本的SPE,而后100 采样点为异常过程样本的SPE。可以看出正常过程测试样本的SPE在两个监控图中均位于99% 控制限( 实线) 以下( 点划线为95% 控制限) 。

对于异常过程的样本,SPE指标变化则非常明显。所以,对于第一个异常过程,两种方法都能够发现过程异常。采用类似的方法,可以继续考察其他异常过程下的监控表现。经比较可以发现,多数异常过程两种模型都能构检测到过程异常,但对于第九个异常过程,情况则有所不同。图5 和图6 给出了对第九个异常过程的监控情况,仍然将测试样本放在前100 个采样点用以进行比较,后100 采样点则是异常过程数据。在图5 和图6 中,采用PLS方法监控时,异常过程样本中有少量点的SPE超过控制限,但大部分却仍然处于99% 控制限以下。与此相比,KPLS的SPE监控图则明显不同,在200 采样点之后,SPE变化明显,绝大部分都超出了99% 控制限,这种情况即可判断为过程异常。

从上述两种异常过程监控中,PLS与KPLS监控方法的表现,可以说明,相比于线性PLS,KPLS监控方法对于非线性过程有着更强的特征信息提取的能力,在统计指标上表现的监控能力也更强。SPE指标反映的是通过成分变量重构自变量的能力,也是成分中包含过程中模式特征的表征。从仿真实验可以看出,通过KPLS方法所提取的核成分,代表了更多的系统信息,能够兼顾PLS模型所忽略的非线性结构信息。

4 结论

本文由KPLS建模的自变量重构提出了用于非线性过程对象的统计监控方案。KPLS方法在高维特征空间提取的成分变量,反映了样本数据所包含的非线性结构特征,这也是过程工况的模式特征,因此KPLS的成分变量更适于非线性过程的在线监控和故障辨识。通过对标准TE过程的监控仿真,KPLS建模相比于传统PLS方法有更好的回归性能; 同时,对于特定的过程异常,基于KPLS的统计监控方法,对故障反应更加明显和及时。对于生产实际中的一大类非线性过程对象来说,基于KPLS的非线性统计监控方法适于进行安全监测和故障辨识,可有效防止过程工况恶化,避免事故发生。

摘要:为适应快速变化的化工产品需求,过程工业逐步向柔性生产发展,使得间歇过程的应用日益广泛。这一类工艺过程具有动态和非线性的特征,过程故障带来的工艺波动和安全风险是较为突出的挑战。采用基于核函数的偏最小二乘方法,在高维特征空间提取特征变量,这些变量包含了生产过程的非线性结构特征,也反应了过程工况的模式特征。针对传统线性方法存在的故障漏报等问题,利用核函数技巧,在特征空间进行数据重构,进而计算统计监控指标SPE,并通过对SPE的在线监测实现更加有效地故障辨识。本方法针对标准非线性测试对象进行了过程监测,实现结果充分说明了方法的有效性。

数据辨识 篇9

关键词:Spark,聚类,K-means,电力系统,不良数据,负荷曲线分类

0 引言

随着智能电网的迅速发展,电力系统的数据呈指数级增长,其结构和运行模式也越来越复杂,因此对系统运行的可靠性、安全性和稳定性也就提出了更高的要求[1,2,3]。电力系统状态估计是电力系统信息管理系统中一个重要的组成部分[4]。由于客观原因,除了正常的数据噪声,各信息采集单元所获取的测量数据不可避免会有不良数据。不良数据的存在会在不同程度上使电力系统状态估计结果失真,从而不能准确得到系统真实的运行状态,可能会引发未知的安全后果。因此,对不良数据进行检测和处理就显得尤为重要[5,6]。

传统不良数据检测方法取得了大量成果,但仍有不少问题未得到妥善解决。现今对电力数据进行分析和分类控制时,前期处理大多用的是神经网络法和聚类分析法等。文献[7]运用基于蚁群优化算法的负荷序列聚类分析,提高了对外部气象等因素的敏感性,对负荷曲线轮廓相似性具有更细致的聚类性能,但聚类时间较长;文献[8]将模糊聚类技术与人工神经网络中的BP网络相结合,通过C均值模糊聚类方法实现不同用户日负荷曲线的分类;文献[9]提出一种基于传统K-means聚类算法并结合有效指数准则的不良数据检测和处理方法,但收敛速度慢且易陷入局部极小。为了提高处理海量数据的能力,文献[10]在Hadoop云平台下,建立并行局部加权线性回归模型,并采用最大熵建立坏数据分类模型。然而这些算法几乎都是通过大量的频繁迭代来实现,算法复杂度相当高。尽管传统串行算法可以对电力负荷数据进行聚类,但单机的计算资源依然无法满足算法在处理海量高维数据时大量的资源消耗;而基于Map Reduce的算法能处理海量数据,却不能有效处理频繁迭代计算。随着电力系统智能化建设的不断深入,对不良数据的处理有了更高的要求,云计算的出现,为更准确地进行不良数据的检测与辨识提供了可能[11,12]。

围绕上述问题,对输电网状态估计中的不良数据进行识别和纠正,以提高状态估计的准确性。以某个节点的历史负荷数据为研究对象,在云集群环境下,利用基于Spark的并行K-means算法对该节点的负荷数据进行聚类,提取出日负荷特征曲线;通过与特征曲线对比,辨别和处理不良数据。通过在实验室搭建的Hadoop和Spark云集群,并采用真实电力负荷数据进行算例分析,验证基于Spark平台的方法得到的状态估计结果准确性优于基于传统K-means聚类的方法[9],与传统Hadoop平台相比,具有更好的加速比、扩展性,能更好地满足处理电力系统海量数据的需求。

1 基于Spark改进的K-means并行算法

1.1 传统K-means算法

传统K-means算法[13,14]的基本思想:首先从N个数据对象中随机初始化K个聚类中心;对于剩下的其他对象,计算其与K个聚类中心的距离,分别将其分配给与其距离最近的类簇;然后再计算每个类簇新的聚类中心,即该类簇中所有对象的均值;不断重复这一过程直到标准测度函数开始收敛为止。一般都采用簇内误差平方总和作为标准测度函数,其定义为

其中:K为簇的总数;i为簇Ci的平均值。

1.2 基于Spark改进的K-means并行算法

1.2.1 Spark架构和弹性分布式数据集RDD

Spark由加州大学伯克利分校AMPLab开发,由于引进了弹性分布式数据集(Resilient Distributed Dataset,RDD)[15]的概念,Spark可在集群计算中将数据集分布式缓存在各节点内存中,省去大量的磁盘IO操作,从而大大缩短访问延迟。作为Spark架构的核心机制,RDD是一种基于分布式内存的并行数据结构,它能将用户数据存储在内存,并控制分区划分以优化数据分布。数据存储在内存中,尤其对于需要多次迭代使用的数据,省去了多次载入到内存和存储到磁盘的过程,大大加快了处理速度。Spark还支持RDD的显式缓存(cache)及持久化(persistence)存储。

Spark运行架构如图1所示,Spark应用在集群上以独立的执行器(executor)运行在不同节点,在主程序中以Spark Context对象来进行总体调度。Spark Context可以与三类集群资源管理器(Standalone、Mesos或者YARN)相连接,集群资源管理器的作用为在不同Spark应用间分配资源。Spark在执行程序时,需要将应用代码发送给工作节点(worker node)的执行器去执行任务(task),以尽可能实现数据的本地化计算。

1.2.2 改进K-means算法思想

传统K-means聚类算法属于聚类中一种基本的划分方法,具有简单、快速的优点。然而这种算法对初值的依赖性很强,初值选取的不同往往导致聚类结果相当不稳定。其次,当初始聚类中心选择不当时,算法极易陷入局部极小点;并且容易受“噪声”数据的影响。其复杂度由O(TKN)表示,其中K是期望的聚类簇的个数,T是迭代次数,N是数据对象的个数;则其并不能适合处理海量数据。因此考虑用最大最小距离法来优化初始聚类中心。

当最大最小距离法处理的样本规模为N,每次寻找新的聚类中心时,很明显要进行N次距离计算。若共找到k个聚类中心,则算法结束时共进行的计算次数为Nk-1。最大最小距离法的计算量取决于N的规模,直接将最大最小距离法作用于原始数据集的执行效率很低。考虑到数据集合本身的规律性以及算法的适用性,因此将其与抽样技术相结合。

初值优化流程图如图2 所示。

首先对原始数据集进行多次随机抽样,然后基于Spark运用两阶段最大最小距离法以产生最佳初始聚类中心,最后再用基于Spark的并行K-means算法进行聚类。因此,此算法的处理流程为:多次随机抽样、最大最小距离法搜索出最佳初始聚类中心、K-means迭代处理。该算法通过优化K-means算法中初始聚类中心,获得更准确的负荷特征曲线;利用Spark并行计算框架实现并行化,克服无法处理海量电力数据的问题,最终实现精确高效的电力负荷曲线分类。

1.2.3 基于Spark的改进K-means算法并行化实现

利用Spark并行实现K-means,总体上也是采用“map”“reduce”的思想,即在每次迭代中,先用“map”计算所有样本和中心点距离并归类,再用“reduce”分类求均值算得新的中心点。然而与Hadoop的Map Reduce[16]最大的不同是,Spark对所有中心点的所有次迭代运算都是在内存中对RDD计算完成,中间不需要与磁盘交互,而Hadoop的这个过程则要与磁盘有n (迭代次数×分类数)次的交互。基于Spark的改进K-means算法实现如图3所示。

基于Spark的K-means算法并行化实现分两部分。第一部分,首先读取HDFS的文件(已经预处理过的文件)并创建新的RDD,并在本地执行Cache操作缓存RDD数据。之后多次随机抽样产生J个抽样样本,在Map过程利用最大最小距离法在本地产生若干初始聚类中心集合, 然后在Reduce过程将这些初始聚类中心集合汇总,再次调用最大最小距离法得到最佳初始聚类中心集合。第二部分,通过Map操作执行局部数据的聚类,Reduce操作执行汇总局部数据的聚类,计算全局的聚簇。聚类算法的并行化执行是由Spark内核调度完成,内核会根据工作节点数目,自动将数据集及执行任务分配到不同节点,继而多个计算节点会并行执行聚类计算。

与Hadoop相比,新一代并行计算架构Spark的最大优势是以RDD内存计算为核心,即将迭代计算的数据块定义为RDD,以分区(Partitions)的形式分布存储在不同节点的内存中,再由位于这些节点的Tasks针对本地内存Partitions重复完成迭代计算即可,中间完全无需和磁盘进行交互。

2 基于并行K-means聚类的负荷特征曲线提取

以一个节点一天24 小时所测量的负荷数据为纵坐标,以该天各个测量时刻点为横坐标,得出该天的负荷曲线。不良负荷数据在这里特指某个或多个时刻点的负荷值偏离正常值过多。要辨别一条曲线上的某个数据是否为不良数据,需要一个正常数据作为参考,这个参考标准就是负荷特征曲线。相邻几天内的负荷曲线是类似的,下面就是根据曲线的相似性来检测和处理不良数据。为了方便论述,这里定义几个概念。

定义1 一天中连续m个时间点上测量的负荷值连成的曲线称作负荷曲线,记为Ki=(xi1, xi2, …,xim),ik为第k个测量时间点,xik为第k个测量时间点的负荷值,k=1, 2, …, m。则一条负荷曲线即为本文算法中的一个样本。

负荷曲线的相似性是辨别和处理不良数据的关键。以直角坐标为参考,纵向相似性特指相邻几天内的负荷曲线的形状是类似的,这里以曲线间的距离来表征。

定义2 负荷曲线Xi和Xj的距离

即两条曲线的距离就是两条曲线上各个测量点上的负荷值差中的最大值。距离Dij越小,则曲线Xi和曲线Xj的相似度就越高,反之则相似度越小。相似精度在一定范围内的曲线归为一个曲线类,也就相当于用本文算法聚类后的一个结果类;这里也把这个范围叫做相似精度。

定义3 记曲线类C为(X1, X2, …),其中,Xi(xi1, xi2, …, xin)。曲线类C的相似精度为

最后给出质心的概念,也即负荷特征曲线。

定义4曲线类C的质心为

定义5 定义曲线Xj和曲线类C的距离为曲线Xj到质心的距离

负荷特征曲线的提取本质上就是求取各个曲线类的质心。不良数据的产生是偶然的,在所有的数据中所占比例极小,因此它对质心的求取影响也是极小的。要辨别出不良数据首先得辨别出不良数据所在的负荷曲线。正常负荷曲线模式也即负荷特征曲线,要将不正常的负荷曲线提取出来,可以转化为求取到负荷特征曲线也即质心的距离大于某个阈值的负荷曲线。本质上来说,这就是数据挖掘中的聚类分析问题。

聚类分析可以将负荷曲线集分成若干个曲线类。根据定义1,负荷曲线的横坐标由各个测量时间序列组成,Xi=(xi1, xi2, …, xim),每个时间点xik就是一个属性。显然,这是一个m维的样本。将所有这样的样本作为本文算法的输入,设定阈值相似精度。正常天气情况下,工作日,周末和节假日的用电负荷显然是不同的。对于配电网来说,即便是同样的日期,不同用户(如居民用电,企业用户和商业用电)的负荷曲线显然也是不同的,因此本文算法中的K取值肯定是大于等于2 的。因为数据来源和篇幅限制,本文只讨论输电网状态估计中的不良数据处理。

3 基于负荷特征曲线的不良数据处理

假设某个曲线类C提取出来的负荷特征曲线为Xt,待检测负荷曲线为Xi=(xi1, xi2, …, xim)。从模式识别的角度,辨别含有不良数据的负荷曲线就是计算待检测负荷曲线Xi与负荷特征曲线Xt的距离Dti,观察其是否在设定的Dti内。如果距离在Dti内,则该待检测负荷曲线便属于正常负荷曲线模式。否则,该待测负荷曲线即为非正常负荷曲线。假设待检测负荷曲线Xi中的负荷值与负荷特征曲线相应位置的负荷值的差值超过预定范围,则可确定该时间点即为不良数据的具体位置。

设Xi=(xi1, xi2, …, xim),m为一天中的采样时刻点数。对于采样时间点k,Xt和Xi对应的负荷值分别为xtk和xik,则Xi相对于负荷特征曲线Xt的负荷变化率为 δ(k)=(xik- xtk)/xik×100%。根据运行该算法时所设定的阈值计算出该曲线类C历史上该点的负荷变化率的范围,若 δ(k)在这个范围内,则为该点为正常数据,反之为不良数据,并且k点也是该不良数据的具体位置。

判定某一个时刻点的数据为不良数据后,可以根据提取出来的特征曲线进行不良数据的修正。由于从曲线集中提取出来的特征曲线不止一条,在修正之前必须正确找到对应的特征曲线。每条特征曲线就是一个质心,每个质心对应一个曲线类,只要找到离待检测负荷曲线正常数据点距离最近的质心,该质心就是所对应的特征曲线。再以该特征曲线为基准进行修正,具体的修正公式为

式中:Xd为待检测负荷曲线;Xc为修复好的负荷曲线;Xt为特征曲线;p到q是Xd上的不良数据。该方法主要是利用负荷曲线的横向相似性,将特征曲线对应位置的值平移嫁接到待检测曲线上。

4 实验与算例分析

4.1 实验环境

实验平台配置为10 个服务器节点,每个节点均为双核、4 GB内存的PC;其中一台作为master,其他9 台作为slaves;每个节点操作系统均为Linux Ubuntu12.04 desktop;Hadoop版本为2.2.0,Java开发包为JDK1.6 版本,Hadoop程序使用java编写;Spark版本为1.0.2,scala版本为2.9.3,Spark程序由scala编写。

电力负荷数据采集自SCADA系统,由于客观原因,各信息采集单元所获取的测量数据不可避免会有不良数据,且具有偶然性、分布不确定性。验证该方法检测和辨识不良数据的实用性,算例分析数据集选用欧洲智能技术网络(European Network on Intelligent Technologies,EUNITE)组织的中期电力负荷预测竞赛提供的某地区1997、1998 年真实负荷数据[17]。以其中1997年1月至12月每天24点的实测负荷数据为研究对象,一共365天的负荷数据,其日负荷曲线如图4所示。

实验分别在Hadoop和Spark集群平台上进行测试,共进行了2类实验:

(1) 基于Spark平台的状态估计结果准确性测试;

(2) 基于Hadoop和Spark平台的并行k-means算法加速比、扩展率测试。

4.2 算例分析

4.2.1 状态估计结果准确性

本实验将基于Spark的并行K-means算法与传统K-means算法[7]进行比较,测试本文算法的状态估计准确性及收敛速度。

为了测试该方法能否对出现在同一日连续时段内的多个不良数据进行准确辨识,以上面数据集为研究对象,人为设置一些不良数据点。将3月10日的第12、13、14点原始数据652、643、638分别增加60%的误差,变为1 043.2、1 028.8、l 020.8,并对含有这三个不良数据的数据集分别用两种方法进行聚类,这样就得到两组特征曲线。则3月10日对应的日负荷曲线与两组日负荷特征曲线分别如图5、图6所示。

其中粗线表示2月10日负荷曲线对应的特征曲线。第12、13、14点数据在两种方法下的负荷变化率分别为:{40.46%、39.09%、39.44%}、{40.01%、38.65%、39.18%},这几个变化率均不在正常范围内,则被认定为是不良数据。应用式(2)对这些不良数据进行修正,两种方法下修正后的数据与其实际值的误差百分比及两种方法的收敛速度见表1。

测试两种方法的收敛速度,即各自完成聚类需要的迭代次数。由表分析可知,基于Spark的并行K-means算法下修正后的数据和实际数据更接近,误差百分比更小,迭代次数更少,状态估计结果的准确性及收敛速度优于基于传统K-means聚类的方法。因此可知,本文方法为输电网状态估计提供了相对精度高的量测值,降低了不良数据的影响,加快了收敛速度,确保了电力系统安全运行的可靠性。

4.2.2 加速比、扩展性

加速比是指通过并行计算使运行时间减少所获得的性能提升,它是衡量并行计算性能的一个重要指标,其计算公式为Sd=Ts/Td,其中Ts表示串行算法(即在单节点上)计算所消耗的时间,Td表示并行算法(即在d个相同节点上)计算所消耗的时间。加速比越大,表明并行计算消耗的相对时间越少,并行效率和性能提升越高。将EUNITE提供的负荷数据样本人工扩充为原数据集的1 000倍、2 000倍、4 000倍不同大小的数据集,分别在单机环境、Hadoop和Spark云集群节点数为2、4、6、8、10的平台上运行,从而完成加速比和扩展率的对比。

由图7可知:随着云集群节点数增加和数据集增大,基于Hadoop和Spark平台的加速比越高,且基于Spark平台的加速比要优于Hadoop平台的。分析可知,当数据量足够大,单机无法处理的时候,集群并行化能有效地提高算法的计算速度。在实际应用中,尤其对于大数据集时,并行计算的效果越明显,即满足电力系统海量高维数据的负荷分类的性能需求。

扩展比表示并行算法执行过程中集群的利用率情况,其公式为J=Sd/d,其中Sd表示算法的加速比,d表示计算节点数。若可扩展比越高,则平台和并行算法的扩展性越好。

由图8 可知,随着数据集增大,并行算法的扩展比曲线下降速率相对趋缓,且随着节点数增加整体趋于平稳。这说明在Spark平台下,随着数据量的增大和节点数量的增多,其扩展比逐渐趋于稳定,所以基于Spark的并行K-means算法有较好的可扩展性,能够应付电力数据规模的不断扩大,保证了程序的高可靠性。

5 结论

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【数据辨识】相关文章:

危险辨识06-11

模型辨识07-30

动态辨识08-03

理论辨识09-05

煤矿隐患辨识07-01

关键线路辨识05-05

闭环系统辨识05-06

有害因素辨识05-19

参数辨识系统08-09

模糊模型辨识08-15

上一篇:聚丙烯酸酯防水涂料下一篇:油井套管