【转】
着人工智能和数据库技术的发展而出现的一门新兴技术。数据挖掘就是从大量的、不xx的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。
数据挖掘的出发点是代替专家从大量的数据中挖掘出隐含于其中的知识,它使数据存储技术进人了一个更高级的阶段。它不仅利用了数据库的存储功能,对历史数据进行查询和遍历,能回答“是什么”;并且能够找出历史数据之间的潜在联系,挖掘出其背后隐藏着的许多重要信息(这些信息是关于数据的整体特征的描述及对发展趋势的预测,在决策生成过程中具有重要的参考价值),从而可很好地支持人们的决策,能回答“为什么”。
1.1
数据挖掘所能发现知识模型
数据挖掘的任务就是发现隐藏在数据中的模型,根据模型特征,可将模型大致细分如下。
a.分类模型(classification
model):通过对已知类别的个体进行归纳,提取出能代表群体共同的特征属性,即分类模式。
b.回归模型(regression model):能用所分析对象属性的历史数据预测未来趋势。
c.时间序列模型(time series model
):能用已有的数据序列预测未来。与回归模型相比,时间序列模型更强调考虑时间特性,尤其要考虑时间周期的层次,如日、星期、月等,有时还要考虑日历的影响,如节假日等。
d.聚类模型(clustering
model):是将一个群体分成多个类,使同类个体尽可能相似而不同类个体差异尽可能大。与分类模型不同的是,聚类模型属于无导师学习过程。
e.关联模型(association
model):反映事物之间依赖或关联的知识,称为关联规则。关联规则的一般形式是:如果A发生,则B有c%的可能发生,c称为关联规则的可信度。
f.序列模型(sequence
model):与关联模型很相似,不同的是,序列模型的对象是在时域分布的,发现的规则也与先后顺序有关。
所有以上的知识都可在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
2
数据挖掘的常用方法及在状态监测和故障诊断中的应用
数据挖掘是人工智能与数据库技术相结合的产物,它的许多方法来源于机器学习。因此机器学习、模式识别、人工智能领域的常规技术,如聚类(clustering)、决策树(decision
tree)、统计等方法经过改进后均可用于数据挖掘。对于不同的系统,数据挖掘需要采用不同的技术方法和手段,大致可归纳为下列几种类型。
2.1基于传统数理统计等数学工具的方法
数据挖掘中大量采用统计分析方法,如描述统计、概率论、回归分析、时间序列分析、多元分析等。机械设备状态监测与故障诊断中的统计分析方法主要有主成分分析法、部分最小平方分析方法、相关分析、回归分析及因子分析等。数据的统计分析方法应用于故障诊断领域主要用于特征提取、降维、概念形成、相关分析、聚类、状态辨识和过程长期特性分析等。
2.2人工神经网络(ANN)技术
神经元网络技术是属于软计算(soft
computing)领域内的一种重要方法。在数据挖掘的应用方面,当需要从复杂或不xx数据中导出概念和确定趋向比较困难时,利用ANN技术特别有效。经过训练后的ANN可以被想象成具有某种专门知识的“专家”,因此可以像人一样从经验中学习。其缺点是ANN的知识获取过程是一个“黑箱”系统,受训后的ANN所代表的预测模型不具有透明性;另外,也存在网络训练时间长,输入变量的恰当选取困难等缺点。将人工神经网络应用于故障诊断领域,主要用于模型的学习、数据分类、聚类、特征提取、故障识别及状态预测。
2.3模糊集理论
模糊集合和模糊推理是模糊方法的数学基础,模糊集理论以不确定性的事物为研究对象,是经典集合理论的扩展。模糊集理论用于状态监测与故障诊断主要表现两个方面:一是概念形成,用不xx、模糊语言变量描述过程变量和状态符合人们的习惯,较直观,因此也容易为人们理解和接受;另一方面,就是模糊规则提取,即模糊建模,将提取的模糊规则用于控制、预测和故障诊断。
2.4决策树
决策树是一个类似于流程图的树结构,它是一种简单的知识表示方法,主要用途是提取分类规则,进行分类预测,将事例分类成代表不同的类别。由于分类规则比较直观,因而较易于理解,在机器获取领域内已研制出许多实施决策树的有效算法,如ID3及其改进算法等,但该方法xx于分类任务。将决策树应用于故障诊断领域,对大量的机组状态数据进行挖掘,发现故障数据中存在的规律,并以规则的形式体现出来。
石金彦选取了故障信号的七种频率特征作为故障识别的故障特征模式,共同组成故障识别参数集,决策树采用成熟的C45程序,依靠大量样本,形成较为复杂的决策树,得出的规则可以直接适用于故障的识别,从树根遍历整个决策树,得到的7条分类规则,这些规则体现了故障的特征,把这些规则存入到规则库,可以用它对故障分类提供决策依据,也可直接利用规则判别故障的类别。
2.5遗传算法GA(Genetic Algorithms)
遗传算法GA(Genetic
Algorithms)模拟了达尔文的“适者生存,优胜劣汰”的自然进化论与孟德尔的遗传变异理论。遗传算法(GA)使用的算子是随机的,如交叉、变异和繁殖等算子不受确定性规则的控制。但这种搜索也不是盲目的,而是向全局{zy}解方向前进。直接使用适值函数进行适值计算,而不需要求优化函数的导数,使一些不可求导的优化函数也可用GA优化;GA具有较强的鲁棒性,它能同时搜索解空间的多个点,从而使之收敛于全局{zy}解,而不至于陷入局部{zy}解;另外它还具有智能性和并行性,利用遗传算法的方法,可以解决那些结构尚无人能理解的复杂问题。它已广泛应用于函数优化、组合优化、模式识别和信号处理等领域,在处理复杂优化问题时遗传算法显示了巨大潜力,在实际工程应用中取得了巨大成功。由于上述特点,建立合理的模型,可以将GA用于设备的状态监测和故障诊断之中。
王锋等利用运算符集(通常由加、减、乘、除、对数、指数、平方、开方等运算组成)对原始特征向量进行重新组合得到新的特征向量利用遗传算法来优化新的特征参数,根据分类的能力采用类内距和类间距来设计适合度函数,得到诊断滚动轴承的新的特征参数:{zj0}复合特征。用这种方法可以将滚动轴承的4种工作状态xx区分开,而且其分类效果比单独使用复合特征的要好。
2.6基于事例的推理方法(case based reasoning,缩写为CBR)
该方法的思路非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择{zj0}的相同的解决方案。这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则,即无继承性。CBR故障诊断的基本思想是:当寻找诊断方案时,在过去类似诊断方案成功案例基础上进行推理,通过类比和联想来完成当前故障诊断任务。
李小全等在《基于案例推理的工程机械故障诊断智能化研究》中,以工程机械智能化故障诊断系统为对象,运用CBR方法对系统故障诊断过程中案例搜集与整理、案例知识表示、案例检索与匹配、案例学习机制以及案例维护等关键技术进行了分析,指出基于案例推理的故障诊断方法具有实现方式灵活简便、自学习能力强等特点,使用大量的范例特征集合,能够不断积累问题求解的经验,避免知识获取的困难,CBR方法是工程机械故障诊断智能化领域中一种行之有效的方法。
2.7粗糙集理论(rough set theory)
粗集理论是研究不完整数据、不确定知识的表达、学习、归纳的新型数学工具,它的重要特点是具有很强的定性分析能力,即不需要预先给定某些特征或属性的数量描述(如统计学中的概率分布、模糊集理论中的隶属度或隶属度函数,神经网络中的权值等),而直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律。
周庆敏等将信号采集系统形成的数据转变为符合粗集理论要求的知识库,利用粗集方法对知识进行简约、挖掘,去除不必要的属性,揭示出旋转机械故障诊断条件属性中的冗余性,从中发现知识形成规则。
2.8
组合数据挖掘方法
各个数据挖掘方法在具有各自优点的同时本身也存在一些不可避免的缺陷,为了有效利用各种数据挖掘方法的优点,近年来人们提出了组合数据挖掘理论和方法。
2.8.1遗传算法与人工神经网络(ANN)的应用
人工神经网络具有很强的模拟非线性的能力,能够很好地处理故障诊断中因果关系不是很明显的场合。但是其缺点是工作效率降低,网络性能低下,而且会因非线性多极值目标函数而陷于局部{zy}解,进而收敛速度慢,甚至不能收敛。在设备诊断领域,GA与ANN的结合主要表现在以下几个方面:对数据进行预处理,使处理后的数据应用于神经网络时,能够得到更好的收敛性能;当网络的结构一定时,利用遗传算法对网络的权重进行训练,确定网络的权重;当神经网络的结构可变时,利用遗传算法去优化、确定神经网络的结构;利用遗传算法对网络输出层进行优化,提高网络效率和收敛能力等。
魏超等利用BP算法的神经网络进行对汽车的故障进行诊断,BP算法的误差减小,是反梯度方向进行的。因此,极易陷入局部极小点的困境。一旦训练学习样本数目多,输入输出关系比较复杂,网络的收敛速度变得缓慢。表现为对网络结构的初值要求很高。初值的不合理,会造成BP算法的收敛摆动,以至不收敛。将GA与ANN结合起来,先用遗传算法优化初值,再由ANN训练学习,按负梯度方向迅速收敛。能够很好地解决汽车发动机的故障诊断问题。比单纯用神经网络的方法在收敛速度和误差方面得以提高。
2.8.2遗传算法与模糊集理论的结合应用
故障模糊诊断的基本原理是利用模糊变换的原理、{zd0}隶属度和阈值原则,根据各故障的原因与征兆之间不同程度的因果关系,在综合考虑所有征兆基础上来诊断旋转机械振动故障的可能原因。将模糊集理论应用到解决旋转机械故障诊断问题时要计算旋转机械振动故障数据库中的频域征兆,使用模糊集理论对其进行约简,根据约简的结果生成规则。利用得到的规则对故障样例进行诊断。其缺点是规则(模糊矩阵)的确定需要凭借专家的经验知识并且复杂而不可靠。结合遗传算法,其应用主要集中在对模糊集理论中生成规则进行优化,从而提高诊断的准确率和效率。
张建华等分析了涡轮机故障诊断中冷凝器中真空减少的原因,建立了冷凝器故障集。基于信息熵理论,运用模糊集理论进行诊断,利用遗传算法对模糊诊断的规则进行综合和简化,去除那些可信度比较低的规则,使得故障诊断的效率得以提高。
2.8.3粗糙集与决策树的结合应用
利用粗集方法对知识库中的知识进行简约、挖掘,去除不必要的属性,但此方法只重视从知识库中提取规则,而忽视库中知识的变化,其人为干预数据少,所以灵活性较差。而决策树对此有一定的优势,即使训练库中数据发生变化,通过遍历树也会容易调整输的的结构。使用决策树不仅可以达到分类的目的,而且当故障数据样本增加时,扩充样本库内容时其灵活性也得到充分的体现。
石金彦等利用粗糙集进行数据归纳,过滤大量故障数据中的冗余属性,得到精简故障数据集,而后,用决策树分类方法处理精简数据集,产生分类所需的规则以进行分类,完成故障的识别工作,为故障分类提供决策依据。
3 结束语
数据挖掘是一种在数据驱动下发现已有理论不能预测模式的新方法,它在工业设备状态监测和故障诊断系统的开发和应用中有广阔的应用前景。可以相信,随着理论研究和实际应用的逐步深入,数据挖掘理论必将促使现代工业设备状态监测和故障诊断技术进入一个新的发展阶段。(作者单位系中国石油大学(北京)机电工程学院