白建社,樊 波,黄文华,薛钧义
摘 要:针对传统的知识表示与获取方法的不足,提出基于决策树的知识表示与获取方法。该方法充分利用决策树把知识表示与获取融于一身的优点,使知识表示与知识获取同时进行,克服了传统人工智能系统中知识表示与知识获取分离的缺点。将其用于变电站故障诊断知识的获取与表示中,结果表明,提出的方法不仅能够实现知识的自动获取与表示,而且所获得的以决策树形式表示的知识具有很高的推理效率。
关键词:变电站;决策树;知识获取;故障诊断
Knowledge Representation and Acquisition Based on Decision Tree
for Substation FaultDiagnosis
BAIJian-she,FANBo,HUANGWen-hua,XUEJun-yi
(College ofElectricalEngineering,Xi'an Jiaotong University,Xi'an 710047,China)
Abstract:Knowledge representation and acquisition(KRA)is always a bottleneck problem of buildingartificialintelligence system(AI),which is based on knowledge.This paper aimed at the shortage of theknowledge representation and acquisition methods at present,and proposed a new KRA method based ondecision tree(DT).This proposed method used the advantage that the decision tree possesses the knowledgerepresentation and acquisition,and carried out the knowledge representation(KR)and knowledge acquisition(KA)simultaneously,overcome the shortage of the KR and KA separated in traditional AI.Finally,theproposed method was applied to the knowledge representation and acquisition of fault diagnosis forsubstation,and the resultshows thatnotonly itcan implementthe automatic acquisition and representation ofknowledge,but also the acquired knowledge in decision tree possess the greatly high inference efficiency.
Key words:substation;decision tree;knowledge acquisition;fault diagnosis
1 引言
变电站的连续可靠运行十分重要,变电站的故障诊断问题获得广泛研究,所采用的方法主要有模糊理论[1,6,10]、专家系统[2,3,6,9]、人工神经网络[2,3,4,9,10]、Petri网[5]等。基于知识的人工智能方法,首要的问题是获取专家知识并以有效的形式表示出来,以便于计算机推理。虽然专家系统和模糊推理系统采用的基于规则的知识表示方法具有简单、直观的优点,但它们一般不能进行知识的自动获取;而且基于规则的知识所采用的模式匹配推理机制,使系统的推理速度很慢,实时性很差。Petri网以图形的形式表示知识,所表示的知识不仅简单明了,而且有很高的推理速度;但与专家系统一样, 不能实现知识的自动获取(Petri网模型必须人工构建)。神经网络是把知识表示与获取融于一身的方法,不仅能实现知识的自动获取,而且有很高的推理速度;但是神经网络知识表示隐含,不便于人类专家检验,而且它的灵活性很差,系统的任何变化,都必须重新进行学习,并且它的学习收敛速度很慢。
决策树是由内部结点和叶结点构成的以分类与决策为目的的树,决策树学习是以实例为基础的归纳学习[7]。也就是说,决策树是通过自身的学习获取知识,并以决策树形式(通过内部结点和叶结点)表示出来,即它是把知识表示与获取融于一身的。以决策树形式表示的知识简单直观,便于人类专家检验,也具有很高的推理效率(决策树推理就是对决策树的遍历)。因此,把决策树应用到变电站故障诊断领域,不仅可以实现故障诊断知识的自动获取与表示,而且所获得的以决策树形式表示的知识具有很高的推理速度。
2 决策树知识表示与获取
2.1 决策树知识表示
知识表示是一种描述专家知识的约定,以便于把人类的知识表示成机器能够处理的数据结构。良好的知识表示形式不仅可以提高知识存储的有效性和运用效率,而且可以提高人工智能系统的推理效率。通过学习生成一棵决策树,可以根据内部结点的属性及其取值对未知实例分类。因此一棵学习完成的决策树中包含了一定的知识。决策树知识表示就是把专家知识隐含地表示在决策树的内部节点和叶结点上,并根据内部结点上的属性及其取值表达知识的条件部分,而在叶结点上得到知识的结论部分。
图1(a)为某故障诊断知识的决策树表示。为了更清楚地理解决策树的知识表示,可以把它转化 成产生式规则的形式,如图1(b)所示。
从中可以看出,具有两个结点的决策树表示了5条产生式规则形式的规则,因此决策树具有很强的知识表达能力。从知识的推理角度来看,决策树最多两步比较就可以得到结论(由于决策树的深度为2),而产生式规则最坏的情况下要进行5次模式匹配才能得到结论,因此决策树具有更高的推理速度。
2.2 故障诊断知识的决策树获取
知识获取是从大量数据或信息中提取有用信息(即知识)的过程。决策树学习是从大量的实例中归纳出以决策树形式表示的知识。通过学习建立一棵决策树,是从实例中提取知识并以决策树的形式表示出来。因此,基于决策树的知识获取问题实际上就是决策树的学习问题,核心是决策树的学习算法。
在决策树学习算法中,最著名的是基于信息熵的ID3算法,它是以信息的赢取作为选择检验属性的标准(每次选取信息熵最小的属性为测试属性)。但该算法存在偏向于取值较多的属性的缺点,而取值较多的属性并不一定是对决策或分类贡献最大的属性[7]。在构造决策树的过程中,希望优先选择对决策或分类贡献最大的属性,为此必须对ID3算法做必要的改进。
粗糙集理论是Pawlak 1982年首先提出的,它把知识看作是关于论域的划分,认为知识是有粒度的[7],利用相对核的概念进行知识相依性分析和约简。因此可以把它用到决策树的学习中,以改善决策树的性能。
定义 设(P,Q)为知识表达系统S中的一个算法,称(P,Q)中所有不可省略的属性的集合为P相对于Q的核,记作COREQQ(P)。
当P和Q分别表示信息系统的条件属性和决策属性时,如果一个属性a(a∈P)不是COREQQ(P)中的属性,则从P中删除a不会改变原系统的决策性能。反之,删除COREQQ(P)中的属性将会改变原信息系统的决策。这样就把属性集分为核心属性和非核心属性两类,且认为核心属性对分类有更大的贡献,对决策也是至关重要的。故优先选择核心属性作为构造决策树的测试属性。
为此,可以利用粗糙集改进决策树学习的ID3算法,以弥补基于信息熵学习方法的不足,称为粗糙-ID3算法,描述如下:
1)依据训练事例集,计算条件属性集相对于决策属性集的核,并形成核心属性集和非核心属性集。
2)如果核心属性集中仅有一个属性,则把这个属性作为决策树的测试属性,向下产生一个分支(即新结点),转5)。
3)如果核心属性集为空,则在非核心属性集上应用ID3算法选取测试属性,并转5)。
4)如果核心属性集中有多个属性,则在其上应用ID3算法选取测试属性,并转5)。
5)如果训练事例集中的所有事例都分到相应的类别,且分类误差在允许的范围之内,则决策树学习结束;否则转1)。
3 变电站故障诊断知识决策树表示与获取
变电站故障诊断系统对实时性要求很高,且变电站结构复杂,规模庞大,因此不仅要求能够自动获取知识,也要求所表示的故障诊断知识具有很高的推理效率。鉴于传统的知识表示与获取方法存在许多不足,本文采用决策树方法,来解决制约变电站故障诊断系统的知识表示与获取问题。
变电站系统的故障,主要包括线路故障、母线故障和设备故障等。故障诊断是根据变电站中保护继电器和断路器信息,识别当前发生故障的位置和类型。设备故障诊断属于设备状态监测研究范畴,故变电站的故障诊断主要针对线路和母线故障而言。本文只讨论线路和母线故障诊断的知识获取与表示。
3.1 变电站故障诊断信息
变电站故障诊断利用保护继电器和断路器的动作信号进行,在讨论故障诊断知识表示与获取之前,有必要说明一下变电站保护配置情况和故障诊断所用信息。一般来说,变电站中的保护可分为主保护、主后备保护和副后备保护等,如表1所示,为变电站中的保护配置信息。
由于同一类保护一般都包括多个保护信号,而它们的作用都是启动断路器跳闸,以切除故障的线路或母线,可以把它们合为一个信号以减少参与决策的信号的数量。所采用的合成规则是对同一类保护信号采用“或”运算,最终的保护信号就只有主保护、主后备保护和副后备保护等信号。
3.2 故障诊断知识的决策树表示与获取
决策树用内部结点和叶结点表示知识,内部结点表示知识的条件部分(引起故障的原因),叶结点表示知识的结论部分(故障诊断的结果)。决策树的知识获取通过决策树的学习实现,即根据决策树学习算法从实例集中归纳出以决策树形式表示的知识。
图2示一个简单的变电站系统局部接线图。以此为例说明变电站故障诊断知识的决策树表示与获取方法。
由于故障诊断所用信息包括保护继电器和断路器,而且它们一般都是成对出现的,如果不加处理,直接用它们进行故障诊断,则参与决策的属性 过多,所得的决策树不仅规模过大,而且也影响决策树的推理效率,故须作必要的处理,以减少决策属性个数。处理规则如下:
1)保护继电器动作,而断路器没动作(即拒动),则认为该断路器所处的范围内可能发生故障(用F表示)。
2)保护继电器和断路器都动作,则认为该断路器所处的范围内有故障发生(用Y表示)。
3)其它情况下认为断路器所处的范围内无故障发生(用N表示)。
在图2所示的系统中,断路器CB3及相应的保护继电器不仅作为母线的主保护,而且充当线路L1和L2的主后备保护。而L1和L2的主保护分别由CB1和CB2及相关的保护继电器承担。根据上面的合成规则,对图2所示系统进行预处理,得到三个决策属性:BP1、BP2和BP3,分别由CB1、CB2和CB3及其相应的保护继电器得到。
表2给出图2所示系统的故障实例集,现根据这些实例集,利用前面提出的决策树学习的粗糙-ID3算法生成决策树,说明基于决策树的故障诊断知识获取与表示方法。
首先利用粗糙集的相对核概念来约简条件属性,得到相对核中的属性为{BP1,BP2,BP3},非相对核中没有属性。由于相对核中有三个属性,故必须用ID3算法进一步确定选择哪个属性作为根结点。通过计算可以得到,它们的相对于实例集的条件熵分别为:
根据ID3算法的最小信息熵原理,选择BP2作为根结点,把实例集分成三个子集,即{1,2,4,5,7,10}、{3,11,13,16}和{6,8,9,12,14,15}。再分别对这三个子集重复上面的过程,直至所得到的子集中实例所属类别相同。最终生成的决策树如图3所示,它就是从表2的实例集中获得的以决策树形式表示的变电站故障诊断知识。其中No表示无故障,B表示母线故障,L1表示线路L1故障,L2表示线路L2故障,属性值N、F、Y的含义同前,N/F表示属性取值N或者F。
由于决策树叶结点数量是影响决策树准确性的重要因素[8],减少决策树叶结点的数量,可以提高决策树的决策(分类)准确性,故对上面生成的决策树进行了一定的修改。所用的方法是把叶结点相同、父结点属性值不同的结点合并。例如,对图3中BP2=Y的分支,当BP1=N和BP1=F时,它的子结点(为叶结点)都是L2故障,故可把它们合而为一(即BP1=N/F时,子结点为L2故障)。
4 实例分析
现以文献[1]中所述变电站为例,验证本文提出的变电站故障诊断知识表示与获取方法的性能。该变电站包括3台主变、1条高压母线、3条低压母线、3条高压进线、18条低压出线等。
本系统参与决策的属性很多(28个),如果直接构造决策树,不仅决策树规模过于庞大,也影响决策树的推理效率。为此采用以母线为中心的区域划分方法,把变电站划分为4个区域(对应4个母区域建立相应的故障诊断决策树,总共得到4个决策树。
根据各区域的故障数据,形成故障实例集,便可以根据前述决策树学习方法生成故障诊断决策树。虽然各母线区域的连接方式不同,但所得的决策树有与图3相似的形式。最后应用本文提出的方法分析文献[1]中的事例,结果如表3所示。
5 结论
本文针对当前知识表示与获取方法存在的不足,把决策树应用到这一领域,利用决策树知识表示与获取集于一身的优点,提出基于决策树的知识表示与获取方法,并把它应用到变电站故障诊断知识表示与获取中,以验证该方法的性能。主要解决了以下问题:(1)实现变电站故障诊断知识的自动获取与表示,克服传统的知识表示与获取分离的缺点;(2)用决策树表示的知识具有更高的推理效率,能够满足故障诊断对实时性的要求。
参考文献
[1]Chen Wen-hui,Liu Chih-wen,Tsai Men-shen.On-line fault diagnosis of distribution substation usinghybrid cause-effect network and fuzzy rule-basedmethod[J].IEEE Transactions on Power Delivery,2000,15(2):710-717
[2]张东英,钟华兵,杨以涵,等.基于BP神经网络和专家系统的变电站报警信息处理系统[J].电力系统自动化,2001,25(9):45-47
[3]Yang Hong-tzer,Chang Wen-yeau,Huang Ching-lien.On-line fault diagnosis of power substationusing connectionist expert system[J].IEEETransactions on Power Systems,1995,10(1):323-331
[4]郭谋发,王劭伯.基于多神经网络的分布式变电站故障诊断系统的研究[J].福州大学学报,1999,27(5):35-39
[5]Lo K L,Ng H S ,Grant D M ,et al. Extended Petrinet models for fault diagnosis for substation automation[J]. IEEE Proceedings-Generation, Transmission and Distribution,1999,146(3):229-234.
[6]周明,任建文,李庚银,等.基于模糊推理的分布式电力系统故障诊断专家系统[J].电力系统自动化,2001,25(24):33-36.
[7]史忠植.知识发现[M].北京:清华大学出版社,2001
[8]Wang Xizhao, Chen Bin,Qian Guoliang,et al .On the optimization of fuzzy dicision tree [J].Fuzzy Sets and System,2000,112(1):117-125.
[9]杜一,郁惟镛,文华龙.采用神经网络和专家系统的变电站故障诊断系统[J].电力系统及其自动化学报,2003,15(5):28-29.
[10]马玉良,赵光宙.电力系统故障诊断中的智能化方法及其应用[J].电力系统及其自动化学报,2003,15(2):98-102.