时间:2022-12-20 18:09:05
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
2模糊集理论的引入
在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。
3基于事务间数值型关联规则的数据挖掘算法
假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。
二、石家庄地区制药企业专利数据挖掘
本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。
1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。
2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。
3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。
(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。
(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。
2技术关键
本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。
2.1特征选择
假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:
1)计算标准化后的矩阵Z的样本的协方差矩阵Cov;
2)计算协方差矩阵Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;
3)投影数据
到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。
2.2基于营销目标限制的商户精确聚类算法
现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1,x2,…,xm)表达,如果属性Aj的值不存在,则Aj=ε。令Χ={X1,X2,…,Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi={xi,1,xi,2,…,xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表示。其中n为类C中的对象数量,I={i1,i2,…,iu}是C内所有属性值的集合,S={s1,s2,…,su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。
2.3基于烟草营销的多层关联规则的研究
针对本项目,对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)关联规则的开采问题可以分解成以下两个子问题:
①从数据集合或交易集合D中发现所有的频繁项目集。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
(1)传统电网能量流由电网单方向流向客户,智能配电网的能量流可双向流动。
(2)传统电网信息流传输慢,信息不完整,存在较多信息孤岛,智能配电网可以实现信息全面集成,高速双向对等通信,支持分布式处理。
(3)传统电网的业务流程局限于部门内部,智能配电网的业务流程贯穿多个部门,支持互动业务流程,全局角度的优化决策。因此,涵盖电源、电网、用户的全流程,贯穿电网规划、设计、建设、运行维护、技术改造、退役的全过程,最终形成电力流、信息流、业务流的高度融合和一体化,将成为智能配电网发展、研究、建设的重点。
智能配电网的信息化建设已经全面开始,但我们仍然不能忽略存在的问题。
(1)对配网信息化的认识和定位不清楚,应用主体不明确,导致后期的应用具体的受益者少或不明显。
(2)对配电信息化系统缺乏统一细致的规划,存在“盲人摸象”的现象,提不出完整而准确的需求。
(3)容易套用调度自动化的建设思路,过分强调实时应用,而没有针对配电信息量大面广的特点,忽视了对其它系统的相关数据利用和整合,造成配电系统的信息缺口很大,模型不完整,后期的应用无法实用化。
(4)配电自动化涉及供电企业内部的生产管理环节较多,因此存在管理体制对自动化基于实时历史数据库开展配电网数据挖掘的应用与研究文/杨劭炜邱佳杰叶伟宝当前全球能源开发利用正呈现多元化、清洁化的发展趋势,我国经济快速发展,用电需求急速增加,而煤炭、风能、水能、太阳能等传统与新能源资源的分布与消费呈逆向分布,因此,国家电网公司在2009年5月21日,提出了建设“坚强智能电网”的发展战略,并分三个阶段逐步实现。国家电网“十二五”电网智能规划中明确了“电网发展方式的转变”是这一期间的核心,而作为“两个薄弱点”之一的“配电网”将是重点需要解决的。本文以配电网为切入点,引入数据挖掘技术,围绕最能体现配网管理水平的各类业务,既提高了传统配电网业务的执行效率,又能发挥信息技术强大的智能决策优势。摘要系统的不适应,或者说是自动化系统对不同的管理体制的适应性不强。造成工作职责界定不清楚,运行管理工作跟不上,系统应用和数据维护工作很薄弱。另外,根据国网“十二五”规划,国家电网公司明确要制定实施农电发展战略,大力加强农网建设。本项目正是以县公司这样的基层供电公司为研究对象,综合考虑配电网业务的复杂性,及县公司覆盖城网和农网的特点,力图在建立一个有效配电网数据挖掘与分析模型的基础上,依托先进的技术手段,提高在县公司对智能配电网的认识和管理水平,并在可能的情况下,将研究成果在浙江省范围内的县级供电企业进行推广。
2项目建设目标
实现对配调图形数据的智能化管理与各业务环节的正常流转;研究无线数据通信节点的接入及组网管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、树型等网络结构,管理并维护多个节点,对数据进行预处理;应用有源电子标签的电子标识系统来定位现场配网设备,解决管理人员在日常巡检和维护中,突发状况时的准确定位及地理环境变迁后的配网设备查找;为移动终端上各类信息(地理背景、电力网架、电力用户信息,配网设备台帐等)提供图形化的展示和管理;实现以文件或接口的方式导入电网拓扑、电力用户信息、设备台帐信息等。项目主要研究内容:
(1)工作任务生成与流转方式的研究。提出工作任务的概念,将其作为系统中业务流转的唯一单元。设计并实现其具体流转方式。
(2)无线数据网络的研究。分析以无线数据网作为整个系统的通讯核心的技术可行性。研究无线数据通信节点的接入及组网管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、树型等网络结构,管理并维护多个节点,对数据进行预处理。
(3)有源电子标签的研究与应用。研究使用有源电子标签的电子标识系统来定位现场配网设备的技术可行性,以解决管理人员在日常巡检和维护中,对突发状况时的准确定位及地理环境变迁后的配网设备查找。
(4)移动终端上配网信息可视化展现的研究。为移动终端上各类信息(地理背景、电力网架、电力用户信息,配网设备台帐等)提供图形化的展示和管理。
(5)与相关系统数据接口的研究与实现。研究电网拓扑、电力用户信息、设备台帐信息等数据的载入方式及其技术可行性。涉及系统包括:GIS,PMS,营销系统等。
3项目技术方案详情
3.1系统架构
(1)总体要求及架构。系统将采用面向服务架构(SOA),遵循IEC61970标准接口和CIM数据标准,集成SCADA、市公司数据交换总线(IEB)、电力营销、气象网站、负控管理等相关系统,采用数据仓库技术,有效解决多源头复杂数据的采集、海量数据之上进行快速准确科学的数据分析的难题,贴近国内供电企业电网运行工况和负荷分析预测人员及电网规划人员日常工作所需的基于省公司实时历史数据库开展配电网数据挖掘系统。
(2)技术路线。①基于IEC、CIM等标准,建立资源中心,通过IEB企业总线接收来自PMS、ACADA、电力营销、用电采集、气象系统等的多维数据;②采用C/A/S三层架构,保证平台的稳定性和时效性;③部署上满足大范围推广应用;
3.2集成框架
基于省公司实时历史数据库开展配电网数据挖掘平台集成了SCADA、市公司数据交换总线(IEB)、电力营销、气象网站、负控管理等相关系统。集成框架如图1所示。
4硬件架构
平台应用采用单独的应用服务器独立部署,需要配置相应的软硬件环境。应用服务器通过F5实现均衡负载,当用户增加,已有服务器性能影响用户体验时,通过增加应用服务器的方式提升系统整体性能。
5软件架构
基于省公司实时历史数据库开展配电网数据挖掘平台将提供6大业务分析功能及3个基础管理功能,共约40个分析子功能项,满足各级负荷分析预测人员的日常工作所要。
1.1领域本体对特定专业领域中的概念及之间关系的描述,即为领域本体,它是对一个应用领域的描述,具体来说,分为本体知识库和领域本体模式两种成分,进而描述特定的领域知识和信息,即为领域本体模式,此外,模式描述了应用领域的知识构成或静态信息。而所谓的顾客价值需求领域本体,描述的是逻辑关系、描述的对象是顾客价值需求目标概念机需求行为概念,明确则是指概念及约束是显式的定义,基于其具有计算机刻度的特点,构成了形式化,研究目的将领域体原语定义的具体情况如下:定义一:顾客价值需求领域本体的概念构成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顾客机制需求特性概念用Concerpts1表示,顾客的价值需求决策行为概念用Concerpts2表示,如环境约束分析、方略设计、实施等;顾客的基本特征概念则用Concerpts3表示。定义二:顾客价值需求领域本体形式化为三元组:ODomain={Concerpts,Relations,Instances},式中,领域概念的集合用Concerpts表示,领域概念间的关系集合用Relations表示,而ODomain为领域本体,本体实例的集合则用Instances表示,形成三元组。定义三:顾客价值需求领域本体的关系集合表示的是概念集合中各个概念之间的关系,具体数来,表现为n维笛卡尔积的子集。关系集合中存在5种关系,有Part-of:某个概念是另一个概念的属性。Means-end:不同需求概念之间因果解构关系。Subclass-of:概念之间的继承关系。Drive-adjust:不同需求概念之间因果解构关系。Attibute-of:某个概念是另一一个概念属性。也就是行为感知影响目标调整,且目标驱动行为,二者关系密切。定义四:领域模式在应用域的实例,即顾客价值需求领域本体的实例。如“大学生的移动产品需求”本体、“政府顾客的移动产品需求”本体等。
1.2任务本体对特定任务或行为求解方法的描述即为任务本体,对其的设计,应当以顾客需求管理领域决策信息及问题的需求为基础,有文献指出,顾客吸引、识别、保持及发展,为顾客生命周期管理涉及到的4个管理主题,如表1所示,也包括了上述主题的决策分析问题。综合数据挖掘的任务来看,其囊括了一个或多个挖掘子任务、挖掘算法等,结合本次研究,实施了对该领域的任务本体原语定义的设计,如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任务本体用OTaske表示;α管理主题下Taskea挖掘任务的输出变量用Inputsa表示,如兴趣参量、聚类变量、规则前、后件变量;α管理主题下的挖掘任务用Taskea,如顾客细分以及需求特征描述等;挖掘结果输出表达形式或格式用Outputsa表示,如聚类中心、“类”聚类变量均值、“类”样本数等;挖掘方法用Methodsa表示,如K-means聚类。另外,α∈(识别顾客,吸引、保留和发展顾客)共同构成了任务本体。
2对本体下顾客需求数据挖掘过程的改进
结合现实发展中的相关问题,在本体的顾客需求数据挖掘过程的改进方面,主要体现了挖掘目和任务、方法的选择及确定及数据源转化、约束参数的选择等。这种方式下,对目标的搜索范围进行了有效的缩小,进而在此基础上提高了挖掘质量和效率,如图1所示。
2.1支持管理决策的挖掘任务首先要进行的是对数据挖掘任务和目标的确定,基于操作中验证或探索可支持实际管理决策的信息结构,具有较大的价值,其知识内容包括了规则、规律、模式及关系等,结合文中研究主题,依据顾客需求相应决策问题来进行具体数据挖掘任务的设置,在对挖掘任务和目标的完善方面,有效地结合了领域知识的本体模型。在对应概念及关系语义匹配方面,根据该领域需求目标、行为信息的本体模型来进行,继而确定本次数据挖掘任务。
2.2挖掘数据空间及预处理在具体的实施过程中,以数据挖掘任务和领域本体模型为基础,指导完成数据集成、选择以及预处理3个环节,这便是挖掘数据空间及预处理,细分有以下内容:(1)提取、归并处理多数据库运行环境中顾客数据,以及遗漏和洗清脏数据等;(2)基于数据来进行数据的选择方面的需求,应依据数据挖掘任务需要分析的数据来实施,进而有效减少了不相关或冗余的属性,也得到了符合约束的数据挖掘有限数据基,实现了数据挖掘搜索效率的有效提高,使得相关属性或遗漏等现象得到了有效避免;(3)基于顾客“需求行为”领域本体的概念语义即为预处理,旨在检查转载的数据,确保其合法性,并及时修正其中的错误,预处理其中的异常数据。
2.3挖掘方法算法及执行流程依据本次研究的需要,在具体的执行过程中,设定先明确数据挖掘的任务和目的,详细可分为验证性、探索性挖两种,前者由用户事先给定假设,继而在挖掘中发现蕴含的某些规则或规律,对所做的假设进行验证;其次,对操作过程中的挖掘方法和算法进行确定,而挖掘方法和感兴趣参数的设置则要根据挖掘任务来进行,如表1所示;最后,确定挖掘结果的表达方式,一般有神经网络、树结构以及规则(模板)等[6]。
2.4评价挖掘结果作为整个实施过程的最后一个环节,对于挖掘结果的评价和诠释,对于整个操作过程具有十分重要的意义,在具体的评价过程中,不能有违背领域本体知识的行为,并要及时参与领域本体的概念关系,且还要采取相应的方法来提高综合评价的有效性,如置信度、支持度以及兴趣度等等,在必要的情况下,实施方应当反馈调整参数或约束等,继而形成对用户感兴趣知识的重新挖掘,对其进行完善,基于本体用严格的逻辑语言表述过程中产生的新知识,需及时在实践过程中的检验与完善,使得整个过程具有较高的可信度,收到良好的执行效益。
2采用可视化图形操作分析技术
可视化分析技术能够整合各式不同的数据来源或数据仓储系统,利用MicrosoftSQLServerAnalysisServices构建多维结构数据库(Cube),而后存取、分析商业数据,通过鼠标的拖、拉、点、选,操作各种维度与量值,迅速产生各式的分析图表与统计结果。可视化的图形操作能为用户迅速提供决策报表与在线分析处理(OLAP)等重要分析功能。运用专业工具所提供的报表(Reports)、实时查询(AD-HocQuery)、联机分析处理(OLAP)等重要商业智能的强大分析功能,使医院获得最全面、迅速的数据洞悉能力。具体功能如下:
(1)表定制及报表的整合,在报表灵活性和报表开发易用性等方面具有突出的优势,其报表是通过图形界面下的鼠标拖拽操作来直观的完成的,无须编写任何脚本或者代码,即可实现复杂格式的报表。
二、数据挖掘技术在财务分析中的应用
财务分析的主要目的是改善经营管理,提高企业的经济效益,其主要目的是保证会计信息资料的正确可靠性,以保证企业财产的安全性、完整性。比如某生态园林企业需要投入大量资金完善生产基础设施,并保证现场作业的有序,如有必要还要投资于企业产品周边附属产业的发展,因此财务决策的重要性不言而喻,而在财务决策中应用数据挖掘技术十分必要。财务分析中应用数据挖掘的基本流程包括问题识别、数据准备、数据开采及结果表达与解释等四个步骤,图1可将财务分析数据挖掘的过程直观的表达出来:
(一)问题识别
典型的财务决策包括投资决策、筹资决策、成本决策、销售决策等,企业要进行财务分析前必须识别决策问题,明确需要达到的决策目标等,再将决策目标转换为数据挖掘的目标,最后进行准确的数据定义。如企业需要投资企业产品周边附属产业,则需要利用数据挖掘技术明确以下问题:
(1)企业经营中可随时支配的资金额度,需要财务人员建立数据库模型,将可用于投资的资金情况准确、详细的计算出来;
(2)编制投资方案,即与本企业实际情况相结合,考虑具体投资计划,并对投资方案的可操作性进行分析,比如上述园林生态企业需要投资进口园林机械的项目,就需要在投资前对该项目的大小做出合理评估,了解该品牌园林机械在国际市场的占有份额、品质、成本及销售价格等信息;
(3)投资收益分析,投资的主要目的是获得更高收益,因此在数据挖掘过程中,问题识别时必须做出可靠的收益预算。
(二)数据准备
在完成问题识别后,需要根据不同的需求、从相关数据库信息中选择适用的数据信息,即进行数据准备,该过程需要收集大量与企业财务分析相关的数据信息,以保证数据挖掘的真实性、客观性,比如花卉市场分布信息、装饰装潢市场信息、园林设计与市场销售等信息。通常情况下,数据准备又可分为数据集成、数据选择及数据预处理等三个步骤,其中数据集成是把多数据库运行环境中的数据进行合并处理,去除信息噪声,剔除虚假数据;而数据选择则是分辨需要分析的数据集合,进一步缩小数据处理的范围,提高数据质量,从而保证数据挖掘的有效性;数据预处理的主要目的是解决数据挖掘工具局限性的问题。
(三)数据挖掘
当上述准备工作完成后即可进行深入的数据挖掘处理,挖掘过程中需要注意,必须以财务分析核心思想为指导,明确数据挖掘的目的性,数据挖掘的主要内容包括:选择合适的挖掘工具、具体的挖掘操作及证实发现的知识等,其中选择合适的挖掘工具至关重要,限于篇幅此处对神经网络及决策树两种方法进行简单介绍。神经网络是以自学习数学模型为基础的,利用该方法可以很容易的解决具有上百个参数的问题,为高复杂度的问题提供一种相对简单的方法;视经网络既可以表现为有指导的学习,也可以是无指导聚类,不过输入神经网络中的值均为数值型的。实际应用中通常采用该方法进行财务预警分析。决策树法是现阶段应用最广泛的归纳推理算法之一,其提供了一种展示在何种条件下会获得对应值的规则的方法,是一种简单的知识表示方法,在数据挖掘过程中,决策树法主要用于数据挖掘的分类。
(四)结果表达
结果表达即是在处理数据库信息的基础上客观的表达出数据挖掘的结果,以为企业财务分析提供可靠依据。可以说结果表达是数据挖掘的成果展示,其所表达的是最有价值的信息,如结果表达所提供的信息达不到决策的要求,则可重复挖掘过程,直至决策者满意为止。
数据挖掘(DM)融合了多个领域的理论和技术,如人工智能、数据库、模式识别、统计学等技术。数据挖掘常与数据库中的“知识发现”(KDD,KnowledgeDiscoveryinDatabase)进行比较,对于两者之间的关系,学术界有很多不同见解。数据挖掘属于整个知识挖掘过程的一个核心步骤。
1.2信息安全漏洞
漏洞(Vulnerability),又称为缺陷。对信息安全漏洞的定义最早是在1982年,由美国著名计算机安全专家D.Denning提出,D.Longley等人从风险管理的角度分三个方面描述漏洞的含义,M.Bishop等人采用状态空间描述法定义漏洞,权威机构如美国NIST在《信息安全关键术语词汇表》以及国际标准化组织的ISO/IEC《IT安全术语词汇表》中也对漏洞进行定义。世界上比较较知名的漏洞数据库包括美国国家漏洞库NVD(NationalVulnerabilityDatabase)、丹麦的Secunia漏洞信息库等,我国在2009年也建成了中国国家信息安全漏洞库CNNVD。本文选取Secu-nia漏洞库的漏洞数据作为样本进行数据挖掘。
2数据挖掘算法
2.1数据挖掘任务
数据挖掘任务主要是发现在数据中隐藏的潜在价值。数据挖掘模式主要分为两种:描述型和预测型。描述模式是对历史数据中包含的事实进行规范描述,从而呈现出数据的一般特性;预测模式通常以时间作为参考标准,通过数据的历史值预测可能的未来值。依照不同的模式特征,细分六类模式:预测模式、关联模式、序列模式、分类模式、回归模式以及聚类模式。本文主要针对关联模式进行深入探讨。
2.2关联规则分析及算法
关联规则算法是指相关性统计分析,基于分析离散事件之间的相关性统计而建立关联规则,关联规则算法是定量分析,所以必须将样本中的数据进行离散化操作,此算法是基于大量数据样本的优化算法。
(1)关联算法中的几个基本概念
关联规则算法包含4个基本概念项集。项集是一组项的集合,每个项都包含一个属性,例如,项集{A,B}。项集的大小是指向集中含有项的数量。频繁项集为样本中出现频率高的项集。支持度。支持度用来衡量项集出现的频率。项集{A,B}的支持度定义为同时包含项A和项B的项集的总数。
(2)Apriori关联算法
Apriori算法将发现关联规则的过程分为两个阶段:首先通过迭代,检索出数据集中所有的频繁项集,即支持度不低于最小支持度的项集;第二阶段利用频繁项集构造满足最小信任度的规则。
3运用关联规则算法挖掘Secunia漏洞数据库
Secunia漏洞库覆盖范围包含程序和系统中的各种漏洞。该数据库持续更新体现最新的漏洞信息。Secunia漏洞公告主要包括:漏洞名称、Secunia公告号、日期、漏洞等级、漏洞来源、影响范围、操作系统版本等。以Secunia漏洞库中的信息为样本,构建关联挖掘规则,反映出漏洞信息在不同系统中的关联性。
3.1构建关联规则
(1)挖掘任务
通过历史漏洞信息,挖掘分析不同软件出现同类型漏洞的概率。
(2)挖掘结构
结合挖掘任务,数据挖掘关联表为事例表结合嵌套表的方式。建立漏洞表Vulnerabilities,此表为事例表,漏洞id作为主键。嵌套表为Softwares表,记录软件名和软件版本类型,软件id作为两张表进行关联的外键。
3.2关联规则挖掘结果
通过采集的Secunia库的数据作为样本,应用Apriori算法模型。依据最低支持度(Min_S)和最低置信度(Min_P)的阈值,形成相应的规则集。通过调整Min_S和最低Min_P的值,得到如表1所示的值。通过上述例子可以看出,当关联规则的置信度越高、重要度越高,则该条关联规则的价值越高,根据具体情况,可以设置最低置信度和最小重要度作为该条规则是否有价值的标准,即(Confidence(AB)min,Importance(AB)min),根据对置信度和重要的综合考虑,可以得出价值更高的关联规则,从而对信息安全事件有更好的预警分析。
2空间数据挖掘应用模型的实现
2.1模型设计
城市空间布局及发展具有规范性,因此,对避难场所进行选址需要遵循城市发展战略及人口增长规律。
1)数据挖掘预处理。对研究区各行政区划的人口数据、面积、土地利用类型、已建应急避难场所等数据进行统计,建立txt文本,进行空间数据挖掘,创建数据字典。
2)数据矢量化。在ArcGIS10平台中,以合肥市地图为底图,对行政区划进行数字化,并结合合肥市最新规划图及遥感影像图,对元数据进行矢量化,并编辑地物的属性,形成ShapeFile文件。
3)建立数据库。将空间数据中的属性信息录入属性数据库。
4)空间分析。结合矢量化的人口密度专题图和现有场地点状分布图,重点对服务区覆盖范围外人口进行分析,通过对空间数据进行缓冲区分析、栅格分析、重分类、叠加分析、地图运算等过程,确定应急避难场所综合评价方案,最终确定新场所地址。
5)可视化。根据最终新场所的ShapeFile文件,结合人口密度分布图,制作新场所分布图。
2.2文本及地理信息数据挖掘
1)地理空间特征提取。依据《安徽省应急避难场所分级技术标准(试行)》的场所分级和选址要求[1,2],从纸质地图、规划图、统计数据等地理文本中抽取符合条件的元数据。
2)地理数据分类。从挖掘后的地理空间数据中提取道路、土地利用类型、人口密度、新居民地等地物数据及各类地物的空间特征信息。
3)空间数据挖掘:对空间特征信息进行评价,将符合选址条件的用地数据以及影响避难场所选址的主要因素进行分类、提取,建立相应的空间位置、属性信息,并绘制矢量图层。
3数据库的设计与实现
研究模型的数据库由空间数据库和属性数据库组成,统一存放在关系数据库中,实现数据的统一管理。
1)空间数据库的设计与实现。将要矢量化的合肥市地图进行扫描,加载到ArcMap中,打开ArcCatalog,在目标文件夹下新建ShapeFile文件。通过对需要矢量化的地物进行分析,将现有应急避难场所归为点图层,将城市主、次干道、断裂归为线图层,将土地利用类型、河流、湖泊、人口密度、现有居民地等要素归为面图层。
2)属性数据库的设计与实现。在ArcMap中打开表,进行地物属性库的编辑,对照空间属性库表,分别添加地物的属性字段,并输入属性信息。
4应急避难场所的空间优化和选取
4.1影响选址的主要因素
本文依据《地震应急避难场所选址及配套设施要求》,对影响选址的主要因素进行分类、量化。
4.1.1场地的安全性
选址应具有地质、水文及自然环境方面的抗震安全保障。新建场地距离断层必须有一定的距离,利用GIS的缓冲区分析,建立断层的6层缓冲区,分别赋予不同的评价指标。
4.1.2现有避难场地
按照安徽省地震应急避难场所及配套设施要求,地震应急避难场所分为3类,其服务范围分别为5km、1km、0.5km。以此为标准,对研究区现有27个应急避难场所进行类型划分,并建立服务范围属性表。应用ArcMap的缓冲区分析功能,分别建立以5km、1km、0.5km为服务半径的缓冲区,生成服务范围矢量图,并转换为栅格图像,进行重分类。
4.1.3土地利用现状
新选址的区域覆盖合肥市主、副城区范围,城市区域用地多数被建设用地覆盖,其中有些地块不适于建造避难场地,例如工业用地。土地利用现状评价指标
4.1.4现有居民点空间分布
避难场地的位置距离居民点有距离限制。以居民点为研究对象,进行邻近区分析。对合肥市居民点进行以100m为层次的缓冲区分析,并把矢量数据转为栅格数据。