时间:2023-05-26 08:59:55
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据分析分析技术范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。
数据挖掘在DNA数据分析的发展状况
现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。
基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。
方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。
系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。
其中一个文件所存储的基因信息,见图1。
启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。
没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。
单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。
如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。
选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。
结 论
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。
参考文献
1 引言
随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。
在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。
2 分析目标
(1)数据源:电信运营商网络设备告警日志数据,每天50 G。
(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。
(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。
3 制定方案
进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。
Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。
一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。
MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。
Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。
基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。
4 分析平台设计
4.1 Hadoop集群搭建
基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。
4.2 Spark参数设置[6]
Spark参数设置如表2所示。
4.3 数据采集层
数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。
4.4 逻辑处理层
(1)建立高频翻转告警监控工作流程
先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。
(2)差异化定制方案
按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;
按业务网络细分,针对不同业务网络设计个性化的监控方案;
按客户业务细分,针对客户数字出租电路设计个性化的监控方案。
4.5 数据分析层
Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:
5 平台实践应用
探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。
5.1 高频翻转类告警监控
首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。
5.2 核心设备和重要业务监控
目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。
通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。
应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。
5.3 被过滤告警分析
全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。
5.4 动环深放电分析
动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。
在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。
6 结论
本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。
从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。
参考文献:
[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.
[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
中图分类号:TP392 文献标识码:A 文章编号:1007-9599 (2013) 02-0000-03
OLAP(On-Line Analytical Processing,即联机分析处理)是一种多维数据库技术。这种技术的设计目的是针对特定问题的实时数据访问和分析,并且提供直观易懂的查询结果。还有一种处理技术OLTP(on-Line transaction processing,即联机事务处理),与OLAP不同,OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。
1 OLAP技术介绍
1.1 OLAP技术的发展背景
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP技术正是为了满足决策管理的需求而产生的。
1.2 OLAP特征
OLAP的技术核心是"维"(Dimension)这个概念。“维”是指一种视角,是一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念。通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维上的数据进行动态的多维快速访问和分析。包括:在维之间、成员之间交叉组合分析;对连续时间段进行趋势分析;将数据切片从不同切面比较数据;向下钻取到组合数据的更深层观察细节数据;向上上卷到细节数据的更高层观察汇总数据.因此OLAP也可以说是多维数据分析工具的集合。由此可以得出OLAP的四个特征:多维性、快速性、可分析性和信息性。
1.3 多维数据的概念及层次关系
关系数据库是围绕一条一条“记录”而形成的。多维数据库的技术核心是“维”,类似于数组。下面举例说明:NBA(National Basketball Association)联盟有三种收入来源(转播、门票和广告),下表是其中两支NBA球队(LAKERS,KINGS)的销售收入,其中表1是关系表,表2是根据每支球队的销售来源转化成的多维表。
通过上图可以看出,表2中表达的数据关系更直观。在多维数据库中,通常将“球队”定义成“组织”(Entity)维,将“收入来源”定义为“业务方向”(Business)维,销售额定义为“科目”(Account)维。表2从组织维和业务方向维展示了销售收入状况。其中,“Entity”为维度,球队名称:LAKERS,KINGS为维度成员,即维值。“维”具有层级关系,如父子关系,兄弟关系等。如本例中,Entity和LAKERS的关系就是父子关系,LAKERS和KINGS的关系为兄弟关系。若在Entity和LAKERS之间定义了其他维值,如NBA、WEST(西部)和Pacific Division(太平洋赛区),即:Entity-NBA-WEST-Pacific Division-LAKERS,那“Entity”与“LAKERS”的层级关系就变成了祖辈与后代的关系。
1.4 多维数据分析的操作
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等,对数据进行剖析,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入分析包含在数据中的信息。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(即行列互换)。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
2 OLAP技术在企业财务预算数据分析中的具体
下面以ORACLE公司的产品Hyperion系统为例,介绍OLAP技术在企业财务预算数据分析中的应用。Hyperion系统是一种基于Web的OLAP解决方案,该产品分为三层架构,客户端、应用服务器和Essbase数据库。用户可以通过浏览器访问应用服务器,进行检索和分析数据;也可以通过Essbase Spreadsheet Add-in插件直接对数据库进行操作,进行数据访问和分析。Essbase Spreadsheet Add-in是一款软件,可以与Microsoft Excel实现无缝连接。安装该插件程序后,Excel应用程序中将增加一个菜单项――Essbase。该菜单提供了可以对数据库操作的命令,例如“连接”、“旋转”、“放大”(向下钻取)、“缩小”(向上钻取)、“发送”等功能按钮。用户仅通过单击鼠标然后进行拖放就可以展开立体式、快速灵活的数据访问和分析。
下面应用前面总结的多维数据库技术方法对一大型能源集团公司的预算数据进行数据分析,数据分析的前提是在执行了业务规则(可以认为是计算财务数据的勾稽关系的公式)。连接数据库和应用“Budget”后,搭建一张利润表。如图1:
下面从多角度组合分析该大型能源集团公司的利润情况。比如我们想了解集团公司下属各单位2012年的盈利状况,只需要选中“集团公司”,然后双击,即可进行向下钻取,获取各单位的数据,如图2:
以上是从组织维的角度对数据进行了查询,现在换一个角度,我们从年份和场景进行对比各下属单位的盈利情况,通过对“2012年”和“预算”维值的拖拽,选择“2012年”的兄弟级成员“2010年”和“2011年”,选择“预算”的兄弟级成员“实际”,从而形成图3:
对比2010年、2011年的预算数、实际数和2012年的预算数据,经分析发现,从集团公司层面,集团公司2010年的实际利润1480超过了预计利润1450;2010年、2011年实际利润和2012年预算数据对比,每年利润成上升趋势,说明公司经营状况良好。但是再仔细分析发现,2010年实际利润虽然达到了预期目标,但是有一家分公司的利润为-10,这就会让分析人员去进一步研究是什么原因造成了这种状况,对“上海分公司”执行“仅保留”操作,“2010年”、“预算”和“2011年”、“实际”执行相同的操作,然后将“净利润”展开,将“上海分公司”进行“旋转”操作,得到下图4:
通过对图4分析得出,上海分公司净利润的减少是由于营业总成本的增加和投资收益的减少造成的,经过进一步分析,其中营业总成本的增加体现在人员管理费的增加和研究开发费的增加,因为今年上海分公司引进了一批技术人才进行新技术的开发研究,预计技术成熟后,即可投入到开发生产中,为公司盈利。投资收益亏损是由于当时对投资的一个项目没有进行很好的预估,造成了公司的亏损。通过一系列的分析,得出了结论,这能够指导公司在将来制定更加合理的战略决策。
3 总结
按照企业的业务目标,对大量的企业数据进行分析和探索、揭示隐藏其中的规律性,指导管理者决策,OLAP技术的灵活、高效的特点被体现的淋漓尽致,对于从大型多维数据库在获取数据也显得轻而易举,另外它还具有启发性,引领分析者进行进一步的思考,做进一步的分析,直至得到明确的结果和结论。能够更好的指导企业进行经营决策管理,提高企业经济效益,提升企业的市场竞争力。
参考文献:
[1]ERIK THOMSEN.OLAP解决方案:创建多维信息系统(第二版)[M].朱建秋.北京:电子工业出版社,2004.
[2]施伯乐,朱扬勇.数据库与智能数据分析:技术、实践与应用[M].上海:复旦大学出版社,2003.
[3]姚家奕.多维数据分析原理与应用实验教程[M].北京:电子工业出版社,2007.
[4]姚家奕.多维数据分析原理与应用[M].北京:清华大学出版社,2004.
[5]刘汝焯.审计数据的多维分析技术[M].北京:清华大学出版社,2006.
[6]陈安,陈宁,周龙骧.数据挖掘技术及应用[M].北京:科学出版社,2006.
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02
1 综述
1.1 简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2 需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。
但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2 功能设计
2.1 总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2 在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3 归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4 非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。
针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5 结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。
本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。
结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6 准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7 非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。
非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8 范式化模型
范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9 基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3 应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4 结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
前言:在对频谱监测数据分析中,简单统计分析已经无法满足频谱监测数据实际需求,需要对数据深入研究,探索配频谱监测数据潜在关联,寻找到异常信号,有效提升频谱监测精确性,起到辅作用。数据挖掘技术在应用过程中,能够挖掘海量数据内价值,有关监督设备可以对数据进行扫描,深入分析有关数据。
一、数据挖掘技术简介
1.1数据挖掘的概念
在上世纪90年代内,研究人员提出了数据挖掘,主要目的就是希望能够将所采集到的应用数据内所具有的潜在价值信息挖掘,获取价值信息。数据挖掘内包含较多学科内容,例如人工智能、统计、可视化技术、数据库等。数据挖掘在对数据分析研究过程中,主要采取分类及聚类进行监测,对有关知识进行演变。数据挖掘常见模式主要分为四种,分别为频繁模式、分类模式、聚类模式与异常模式[1]。
1.2数据挖掘的过程
1、数据准备。数据准备阶段主要包含两方面工作,分别为数据获取和数据预处理。数据挖掘应用点在确定之后,能够有效对有关数据进行收集,同时对数据背景进行掌握,对挖掘模式进行确定。有关数据在收集之后,需要对数据内所包含的冗余数据及空缺数据进行预处理,为计算机分析奠定坚实基础。
2、数据挖掘。数据娃聚主要是在数量及挖掘目标确定之后,选择合适的数据挖掘方法及技术,对数据进行计算分析,构建针对性数据。
3、挖掘结果展示。数据挖掘技术所得到的数据结果,十分抽象,除了数据挖掘技术行业工作人员无法对数据挖掘结果进行了解,所以需要对数据挖掘结果进行转化,通过图形及图像的方式,将挖掘结果在屏幕内显示出来,直观将挖掘结果展示出来,用户能够对挖掘结果深入理解。
4、挖掘结果应用分析。按照挖掘背景及目的,对数据挖掘结果进行系统性分析研究,进而找到海量数据内具有价值的信息,同时这些信息技有关生产,对数据挖掘结果正确性进行判断,对数据挖掘有关知识进行修正、完善[2]。
二、数据挖掘技术在频谱监测数据分析中的应用
2.1认知无线电中频谱资源预测应用
认知无线在频谱监测数据内应用,能够有效提高频谱监测数据质量,同时非授权用户也可以对频谱资源进行利用。授权用户在对频谱监测数应用过程中,非授权用户能够直接将频谱监测数据资源让出来,非授权用户就需要充分构建频谱途径,构建通信连接。非授权用户要是没有直接将频谱资源让出来,授权用户与非授权用户之间就会产生矛盾,进而造成通信中断,这样情况所将的损失将是无法预计的。所以,非授权用户及授权用户要是都能够对频谱资源精确划分,能够有效对资源矛盾事件防止,在这种情况下频谱监测资源利用效率也就显著提升。
正式由于认识无线电技术在实际应用内所具有的优势,在对认知无线电技术分析研究过程中,需要将重点放在授权用户应用规律上面,对授权用户占据频谱监测数据空余时间进行预测,帮助非授权用户能够在授权用户空余时间内寻找利用有关资源,这种预测性分析研究主要是通过数据挖掘技术内的频发模式实现。
2.2异常无线电信号监测应用
无线电监测站在常规监测过程中,最为主要的一项工作就是对异常无线电信号进行监测,严禁非法占用情况出现,有效提高无线电通信安全性能。
按照无线电监测所产生的数据可知,频谱设备属于常规性运行,一旦出现异常运行情况,所输出的信号就与常规状态下信号存在一定差异。所以,想要了解频谱设备出现异常情况,只需要将将信号进行分析比较,数据挖掘技术能够有效对海量信号内特点进行提取,在海量信号内寻找到异常信号。数据挖掘技术在无线电监测内应用,首先是通过无线电监测历史数据构建数据模型,模型在具有自我学习能力之后,能够应对无线电瞬息变化环境,对数据模型与历史数据模型相似点进行计算,在发现无线电设备出现异常运行情况之后,数据模型就会发出警告。
结论:数据挖掘技术在频谱监测数据分析内应用,能够有效对l谱监测数据分析流程进行简化,在大量数据信息内高效率的找到针对性数据信息,提高信息挖掘质量,进而为管理人员提供针对性意见。正式由于数据挖掘技术在频谱监测数据分析内所具有的作用,所以对数据挖掘技术进行分析研究,能够有效推动频谱监测数据发展。
引言
运用大数据技术来加强对市场主体的服务和监管,是促进政府职能转变、简政放权和优化服务的有效手段,也是近年来的发展趋势[1]。国务院办公厅的《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》中要求,各级政府部门都要充分认识运用大数据技术加强对市场主体服务和监管的重要性,通过运用大数据技术来提高对市场主体的服务水平、加强和改进新形势下的市场监管能力,并以此为动力推进政府和社会信息资源的开放和共享,提高政府部门运用大数据技术的水平。为了进一步加强和改进市场监管方法,提升市场监管部门的市场主体服务能力,顺应大数据时代潮流,运用大数据技术加强对市场主体的服务和监管,促进政府职能转变,做好简政放权和优化服务,在现有软硬件资源的基础上,整合原工商、质监、食药监、物价、知识产权等相关部门各个业务系统的数据,建设基于可视化技术的市场监管大数据分析系统。基于可视化技术的市场监管大数据分析系统由数据仓库、大数据分析软件及相关软硬件设备组成。
1系统架构
系统采用松耦合、高聚合、多层次和面向服务的体系结构,坚持功能实用、接口规范和高响应时效的原则,采用J2EE架构和多服务器、虚拟化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流数据库,支持Hadoop分布式系统基础架构。采用了兼容性较好的B/S模式,并结合当前科技创新工作的要求,支持Linux系统客户端下的火狐、谷歌等主流浏览器。系统的基本架构如图1所示。系统的数据源来自原工商、质监、食药监、物价、知识产权等多个部门不同厂家、不同版本的业务软件,经过数据清洗模块对各部门的数据进行整理、清洗,存入数据仓库。J2EE平台调用数据分析模型接口对数据仓库中的数据进行分析,并通过可视化工具以图、表等形式对结果进行可视化输出。
2数据预处理
由于数据源所在的数据产生部门、数据库厂商和版本各不相同,数据库中表结构的差异较大,必须先对从各数据源中抽取的数据进行预处理,将清洗整理过的数据存储到数据仓库中,才能把数据完整、有效地提供给数据分析模块进行分析,并对分析产生的结果进行可视化输出。
2.1源数据抽取针对多部门不同的数据库系统,都开发了相应的数据库接口进行数据抽取,对于未采用数据库进行存储的数据,则通过从软件用户端界面手动导入的方法进行抽取。抽取到的源数据保存在前置数据库中。前置数据库提供了自定义表结构功能,用户可通过数据导入模块自行定义表结构和数据表中的字段属性,以便灵活导入未经过事先定义的数据。以市场监管工作中的反不正当竞争监管数据为例,通过数据抽取模块将行政执法的基本数据(案件号,案件名称,当事人,案值,处罚金额,立案时间等)导入系统后,系统将数据自动转化并存储至前置库的数据表中,数据表中相关字段的属性自动根据导入的字段类型进行判断,若表中部分字段内容缺失,系统先以默认值填充,待数据清洗时进一步处理。前置库中的行政执法信息数据如表1所示。
2.2数据清洗
数据清洗是对前置库中的数据进行校验和审查的过程[2]。数据清洗的目的是删除前置库中的重复信息、纠正错误数据,并将字段值的单位进行统一[3-6]。来自各部门的历史数据往往存在数据重复、无效值、空值等实际情况,需要对其进行数据清洗后再存储到数据仓库中以供进一步分析展示使用。对源数据的数据清洗主要采用以下方法进行。对源数据中属性值均相等的数据视为重复信息,将其进行合并处理,只保留一条重复的数据。对源数据中的存在空值的不完整信息,若某个属性存在的空值过多,且该属性对所展示的问题不是特别重要,则删除该属性;若该属性仅存在少量空值,则判断该属性与其它属性间的相关性,存在相关性的根据其他属性的值和相关规则推测该属性的值,无法推测的保留空值。若处理后的某条数据存在的空值仍然过多,则将此条数据删除,否则保留此条数据并保留空值。对源数据中日期等格式不规范的数据进行格式转换,将不同的数据格式转换成统一格式。清洗后的数据存储在数据仓库中,供数据分析模型和可视化工具读取并产生可视化分析结果。
3基于可视化技术的大数据分析系统
利用数据可视化工具,开发市场监管大数据可视化平台,将处理过的市场监管数据以多种类型的图、表等形式直观地展现出来,并对展现出来的信息进行标注、解析、汇总和分析,系统能直观的显示出市场主体的基本概况、发展趋势、风险预警等信息。
3.1数据可视化技术
数据可视化技术是通过算法和工具对多维的信息空间进行定量的处理和计算,将大型数据集中的数据处理后以图形图像形式表示出来,从而将数据中隐藏的信息直观地展现给用户[7-9]。目前数据可视化技术已经提出了多种方法,根据原理的不同可以划分为面向像素的技术、基于几何的技术、基于图像的技术、基于图标的技术、基于层次的技术和分布式技术等[10-12]。
3.2市场监管大数据分析系统
市场监管大数据分析系统运用大数据技术来提高市场监管部门的公共服务能力,对市场主体事中后监管数据进行高效的采集和整合。系统利用市场监管大数据,制定规范了市场监管大数据标准体系,将大数据分析结果作为提高市场监管治理能力重要手段,不断提高服务和监管的针对性和有效性。市场监管大数据分析系统主要包括数据仓库平台及分析展示平台两大部分。数据仓库平台将原有各单位业务软件中的数据进行抽取,进行清洗及格式转换后存储在数据仓库中;大数据分析展示平台将数据仓库中的数据通过建模,以可视化的方式将结果展示给市场监管人员,提高市场监管部门的公共服务能力和事中事后监管水平。数据分析平台包括综合查询、业务分析、风险预警、决策支持、综合分析等主要功能模块及年报监控、统计报表等辅助功能模块。系统的主要功能模块如图2所示。其中,大数据分析工具主要采用集成了报表引擎、全文检索引擎、多维分析引擎、数据挖掘引擎及数据可视化组件中的BI工具实现。通过数据可视化BI组件,为用户提供应用层各功能模块的分析结果可视化输出,实现了市场主体分析的GIS热力图、放射性树状图、标签云等各类图形和报表输出等功能。
4系统实用效果
doi:10.3969/j.issn.1673 - 0194.2015.18.046
[中图分类号]TP391 [文献标识码]A [文章编号]1673-0194(2015)18-00-02
新疆油田公司经过10多年的数字油田建设,于2008年建成数字油田,油田中心数据库包括勘探、开发、储运、生产辅助、经营管理等业务领域的各类数据,涉及油田开发的数据包括单井、区块的日月报数据、分析化验数据、试井与生产测井数据、井下作业数据、井史数据以及地理信息数据等,种类丰富齐全,质量达到标准要求,为生产数据分析应用提供了数据资源基础。2010年,新疆油田启动智能化油田建设工作,包括油气生产物联网(A11)项目及单井问题诊断和优化系统研发工作,加大了油田自动化数据采集的力度及智能化分析应用。通过近几年的研究与实践发现,智能油田的全面感知、分析预测、优化决策等均与大数据分析有关,根据油田大数据分析发现油水井生产规律,可以更好地指导油田生产及优化决策。
1 油田大数据的概念及处理流程
大数据首先具有四个主要特点:数据量大(Volume)、产生速度快(Velocity)、数据类型多(Variety),数据的真实性(Veracity),合称4V或4Vs。大数据由巨型数据集组成,其数据量超出人们采用常规方法在可接受时间内收集、使用、管理和处理数据的能力,但最终体现为价值,实现数据信息知识智慧的转变。在油田生产中大数据分析的概念可理解为:在油田生产、管理中产生的具有连续变化、能够反映油田客观规律的各类数据,以及对这些数据的分析处理。
大数据的处理主要包括7个步骤,分别是:数据采集和提取集成、数据清洗、数据分析从而发现有价值的规律、建立分析预测模型、结果展示可视化和知识表达、结果验证,以及对模型的效果评估优化,如图1所示。
2 大数据分析平台及体系架构研究
结合目前新疆油田生产数据建设情况,以及油田生产应用需求,构建新疆油田大数据分析平台及体系架构,如图2所示,主要包括数据抽取、分布式存储、大数据分析及展示应用4层架构。
数据抽取层主要是实现分布在各数据库或系统中的数据整合,并转换成适合数据挖掘或建模的形式,构建样本数据集;存储层主要是实现汇总数据、模型数据、分析数据以及元数据等各类数据的存储,相当于数据仓库;分析层是基于大数据建模算法和工具,挖掘数据中隐藏的模式或关系,采用数据建模软件(如SPSS Modeler、Hadoop等)建立分类或预测模型(规则、公式或方程式),从而生成预测结果,确定评估方法并利用测试样本,结合专家经验不断提升模型精度,辅助油田生产决策;数据应用层将建立的数据模型封装成可运行软件,包括建模算法的实现、数据的可视化和界面设计等,最终展示给用户使用,实现人机交互。
3 大数据分析技术研究
通过上述研究分析总结出大数据分析需要的两大技术:一是大数据抽取及预处理技术,二是大数据分析技术。
3.1 大数据抽取及预处理技术
数据抽取就是将多种结构和类型的数据抽取转化为单一的或便于处理的结构类型。不同时间、不同地点、不同名称的相同数据所表达的内涵和算法要求一致,是标准化、规范化的自然语言集合,便于计算机理解,是数据提取的关键。
数据清洗主要用于确定有用记录和字段,检查数据是否存在缺失、数值异常等情况,解决办法可用剔除法或使用估计值、平均值填补,错误数据可利用逻辑关系手动替换。
数据构建是为了满足大数据建模需求而创建的新字段,以作为特征参数,如平均值。
数据变换是把原始数据转换成为适合数据挖掘的形式,如归一化处理(概念、时间、度量、语义)等。
3.2 大数据分析技术
大数据分析主要包括聚类分析、因子分析、相关分析、回归分析、A/B测试以及数据发掘等,上述方法在油田常用的有聚类分析、因子分析、回归分析和数据发掘。
聚类分析是把具有某种相似特征的物体或者事物归为一类,目的在于辨别在某些特性上相似(但是预先未知)的事物,并按这些特性将样本划分成若干类,使在同一类内的事物具有高度同质性,而不同类的事物则有高度异质性。
因子分析是用少数几个因子去描述多个指标或因素间的联系,即将相互比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原数据的大部分信息。
回归分析是在一组数据的基础上,研究一个变量与其他变量之间的相关关系,寻找被随机性掩盖的变量之间的依存关系。通过回归分析,可以把变量间复杂的、不确定的关系变得简单化、有规律化。
数据挖掘是大数据时代的关键技术,是指从非完整的、海量的、有噪音的、模糊且随机的数据中挖掘隐含在内且人们未提前得知的有用信息的过程。一般来说,数据挖掘的功能有两类:描述和预测。描述性挖掘用于展现集体数据的一般特性,而预测性挖掘用于推算处理数据,完成预测目的。数据挖掘功能同目标数据的类型有关,有些功能适用于不同类型的数据,有些功能则只适用于某种特定数据。数据挖掘功能能够让人得知未知信息,提升数据价值,从而应用到不同领域。
4 大数据分析在油田生产中的应用研究
4.1 异常井自动识别
异常井作为影响产量的主要因素之一,目前被越来越多的油田生产管理人员重视,原来的异常井发现主要依靠人工发现,需要人工查阅大量的油田生产资料才能最终确定,这种方式存在异常井检索工作量大、发现周期长的弱点,影响异常井的及时诊断和措施制订。采用聚类分析和数据发掘方法对异常井进行自动识别,根据异常井的定义:油井当天产量较上月产量波动大于正常范围的井为异常井,排除作业井、调开井、常关井及停电井等因素影响,并采用技术实现算法的编译,系统架构B/S模式进行,目前已广泛应用于油田日常生产,实现了异常井的及时发现,提高了进一步诊断的及时性,提高了员工工作效率,如图3所示。
4.2 异常井智能诊断
异常井诊断作为油田生产必须的一项日常工作一直困扰着油田生产业务人员,目前,大部分油田异常井诊断主要依靠人工完成,人工诊断工作量大且受人为经验的影响,诊断符合率低,可能会导致后续措施制订失误,影响单井生产。因此,采用灰度图像处理技术和人脸识别算法建立抽油井特征功图库,通过油井当前功图与特征功图的相似度对比,实现油井工况的自动诊断,由于一种工况可能有多种表现形式,导致功图解释存在多种情况,因此,可采用因子分析法,分析每种工况下所关联的因子变化情况,建立参数诊断规则库,通过相关因子的指标项对比分析,确诊异常原因,如图4所示,为制订合理的进一步措施提供充分可靠的依据,从而提高单井的生产时率。
4.3 间抽井开关井计划制订
随着油田开发进入后期阶段,地层能量逐年匮乏,目前越来越多供液不足的井涌现出来,我们将其定义为间抽井(间歇出油的井),目前,新疆油田主要由人工制订下个月的间抽井开关井计划,但计划是否合理还需进一步验证,因此,如何更好地控制间抽井开关时间,对于开源节流、节能减排起着至关重要的作用。可采用因子分析和回归分析方法,挖掘影响间抽井开关时间的因素,如动液面、沉没度、液面上升速度等,建立分析预测模型,对模型曲线进行归一化处理,从而供业务人员合理制定间抽井开关制度,达到节能减排、提质增效的目的。
4.4 油井清防蜡预测
目前油田上对油井清蜡措施的实施都按照人工制订的计划执行,平均每口井1个月清蜡1次,这导致有些井还未结蜡就提前清、有些井已结蜡还未清等不合理情况时有发生,不但浪费人力物力,而且影响油井生产。采用因子分析方法通过油井历次结蜡周期、油井工况、清蜡方式以及用量等参数建立油井结蜡预测模型,采用回归分析方法构建预测模型分析曲线,分析曲线上每个清蜡节点时间,推算出该井的合理清蜡周期,从而指导油井合理有序地清蜡,提高油田精细化管理水平。
5 结 语
通过大数据分析能发现油田生产作业规律,可以很好地解决油田生产业务问题;通过对油田管理数据的分析,能够发现并解决管理中存在的问题和瓶颈;也可以通过各种相关数据的可视化对比分析,发现过去无法关注的问题,这些是大数据分析的核心价值所在,大数据应用的最终目标是预测未来,在认识客观规律的基础上进行分析预测,从而指导油田生产。
主要参考文献
[1]葛春燕.数据挖掘技术在保险公司客户评估中的应用研究[J].软件,2013(1):116-118.
[2]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.
[3]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播:中国传媒大学学报,2013(7).
[4]April Reeve.大数据管理――数据集成的技术、方法与最佳实践[M].余水清,潘黎萍,译.北京:机械工业出版社,2014.
前言
新疆油田重油开发公司是以稠油开采为主的采油厂。有着将近10年的数字油田建设历史。而且中心数据库已经做得很成熟,主要包括五大业务板块数据。即勘探业务板块、开发业务板块、生产业务板块、经营业务板块的数据库。数据库包括的内容主要有单井、区块的日月报数据、试井与生产测井数据、分析化验数据、井下作业和地理信息数据等。数据库的数据资源种类齐全,质量高。2010年新疆油田重油开发公司正式开始进行智能化油田建设工作,利用物联网诊断单井问题,使用大数据技术对油田进行全面感知、分析预测、优化决策找到油水井的生产规律,从而有助于油田生产工作进行。
1 油田大数据的概念及处理流程
大数据有四个特点即量大(Volume)、快速生产(Velocity)、类型丰富(Variety)、真实性(Veracity),被称为4V[1]。由于数据的数量非常大,就将数据组成数据集,进行管理、处理实现数据的价值。大数据对数据库的整理流程是将数据转化为信息,将信息转化为知识,再将知识转化为智慧。这个过程应用于油田可以理解为是对油田的生产和管理工作。大数据的七个处理步骤包括:对数据的提取和收集、清洗数据、分析数据找到潜在的内在价值规律、建立预测模型、对结果进行可视化的估计、验证结果、评估模型。
2 大数据分析平台及体系架构研究
新疆油田为了满足生产应用,构建了一个有效的大数据分析平台及体系架构。此平台主要包括四个基础架构:数据抽取平台、进行分布式的存储平台、大数据的分析与展示平台。最底层是数据抽取平台主要是实现数据的整合,将数据转化成适合进行数据挖掘或者建模的形式,构建可靠的样本数据集。存储平台主要是对数据进行汇总、建模、分析,最后将处理好的数据进行储存。其功能与数据仓库相似。大数据分析层,是在大数据建模的工具和算法基础上,挖掘隐藏的数据模式和关系,利用数据软件进行分类、建模,生成预测的结果,结合专家经验利用测试的样本选定评价方案不断提高模型的精度,更好的用于油田的决策。数据应用层主要是把建立的模型设计为运行软件,运用建模方法实现数据的可视化界面设计,更好的实现人机交互。
3 大数据分析技术研究
进行大数据分析时我们经常采用两大技术即大数据预处理和抽取技术,大数据分析技术。
3.1 大数据抽取及预处理技术
大数据预处理和抽取技术的原理是指将不同名称,不同时间,不同地点的多种不同结构和类别的数据抽取处理成一种所表达的算法和内涵一致便于处理类型的数据结构[2]。在检查数据缺失、数据异常时可以使用数据清洗方法确定有用的数据,一般采用剔除法或估计值法、填补平均值替换错误的数据。为了满足建模所需的大量数据,创建新的字段时需要进行数据库的构建。将原始数据用一定的方法如归一法转换为可用于数据挖掘的数据,这个过程为数据转换。
3.2 大数据分析技术
应用于油田的大数据分析技术为:因子分析技术、聚类分析技术、回归分析技术和数据挖掘技术。其中的因子分析技术是指,利用少数的因子对多个指标和因素间的相关性进行描述,一般将密切相关的多个变量归纳为一类,这一类数据就属于一个影响因子,用较少的因子反应大量数据的信息。聚类分析技术是指把具有某种共同特性的事物或者物体归属于一个类型,并按照这些特性划分为几个类别,同种类型的事物相似性较高。这样更利于辨别预先未知的事物特征。回归分析是指在一组数据的基础之上,研究一个变量和其他变量间隐藏的关系。利用回归方程,进行回归分析,从而有规律地把变量之间的不规则,不确定的复杂关系简单得表示出来。
在使用大数据进行分析时,数据挖掘技术是最关键的一门技术。该技术将大量复杂的、随机性的、模糊的、不完整的数据进行分析,挖掘出对人类未来有用的数据,即提前获得未知信息的过程[3]。数据挖掘功能分为预测功能和描述功能。数据预测是指对数据进行处理推算,完成预测的目的。数据描述是展现集体数据的特性。数据挖掘功能是与数据的目标类型有关,有的功能适用于不同类型的数据,有的功能则只适用于特定功能的数据。数据挖掘的作用就是让人们能够提前得到未知的消息,提升数据的有效性,使其可以应用于不同的领域。
4 大数据分析在油田生产中的应用研究
4.1 异常井自动识别
油田生产过程中影响最大的一个因素是异常井的出现,因此生产管理人员加大了对异常井的重视。最初,异常井的识别主要是依靠生产部门的生产人员,必须经过人工查阅许多关于油田生产的资料才能确定异常井,这种人工检阅的方法存在很多缺陷。比如说大量的检索工作、耗费时间长等,对异常井的诊断和措施制定造成很大的困难。异常井是指油井当天的产油量和上个月相比波动很大,并大于正常的波动范围。目前广泛采用数据挖掘技术和聚类分析技术对异常井进行识别,提高效率。为了实现算法编译使用技术,系统架构B/S模式进行,能够及时发现异常井的存在。
4.2 异常井智能诊断
异常井诊断是油田每天进行生产必须要完成的工序。而大部分油田采用人工方法对其进行异常诊断,工作量极大,影响因素较多,诊断结果的可靠性较低,对后期进行计划实施造成很大的影响。这时可以采用智能诊断方法,利用灰度图像处理技术和人脸识别算法建立抽油井的特征功图库,对比油井当前的功图和所建立的特征功图,实现异常井的诊断。若是相似则不属于异常井,反之,则为异常井。但是有时一种工况可能会有许多中表现方式,致使功图解释存在很多种状况,可以采取因子分析法,分析每个工况下关联的因子间是如何变化,然后建立参数诊断数据库,对比相关因子的指标项,找到异常的原因,采取适合的方案进行修改,从而提高单井的生产效率。
4.3 间抽井开关井计划制订
当油田开发进入后期阶段就会出现很多问题,过度开发使得地层的能量越来越少,致使更多供液不足的井开发出来。将这类井称之为间歇出油井。新疆油田一般会使用人工方法制订间歇出油井的开关时间计划,但是对于计划的合理性没有进行检验。若是能够控制好间歇出油井的开关时间,对油田实现节能减排是至关重要的。这时可以采用因子分析方法和回归分析法进行研究,利用数据挖掘技术找出影响间歇出油井的开关时间的因素,建立合适的分析模型,对模型进行线性回归,进行归一化处理。从而为业务人员提供制订间歇出油井开关时间的合理方案,达到节能减排的效果。
4.4 油井清防蜡预测
目前油田上对于油井清蜡采取平均每口井一个月清洗一次蜡的措施,按照人工计划进行,出现了许多问题。比如,一些井还没有结蜡就已被清洗,有些井已经结蜡,却没有得到及时清洗。这样既浪费大量的人力物力,而且还对油田的生产效率产生不利影响。若是利用因子分析法,将收集的关于结蜡周期、清蜡方式、清蜡用量、油井状况等数据进行分析,建立油井Y蜡模型,再利用回归分析法对建立的模型建立曲线方程,进行预测,找到结蜡时间,推断出结蜡周期,更好的指导油田清蜡工序的进行,提高油田的精细化管理。
5 结束语
总之,对比以前利用人工进行油田生产可以发现大数据对于油田生产是非常必要的,可以更快的挖掘油田的生产作业规律,解决油田生产的困难。而且,可以利用油田数据进行可视化分析,关注问题的主要影响因素找到管理中存在的不足,预防未来问题的出现。大数据的核心价值就是通过以往大量数据进行分析,预测出未来,从而更好地指导油田的生产工作。
参考文献
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)180-0030-02
1 概述
保定・中国电谷智能电网可视化平台整体采用大数据技术架构进行构建,能蚨缘缤在运行过程中产生的大规模、多种类、结构类型复杂的业务数据进行全景容纳,全面反映电网运行、监测、能量采集和检修过程的整体情况。较之传统信息系统,基于大数据和云计算的智能电网可视化平台能够有效提升系统数据分析的并行能力,显著提高计算速度,进一步提升智能调度的科学性和前瞻性,解决电网运行状态检测和电能损耗等方面暴露出来的问题,在负荷分布式控制和用户侧短期负荷预测方面取得突破。
2 设计规划
2.1 设计思路
随着大数据、云计算、物联网等新兴科技的发展,我国电力企业迎来转变生产模式和管理模式,实现可持续发展的重要契机,特别是对于坚强智能电网的建设,带来了深远的影响,大数据在支撑电力企业业务发展的过程中,具备广阔的应用前景。
基于大数据架构的智能电网可视化平台系统数据来源于国网省电力公司数据中心各系统,通过大数据技术进行数据清理、转换和展示。用电信息采集系统、区域新能源管理系统、故障抢修管理系统等多个系统,同时通过数据接口将区域新能源实时数据、电网运行状态信息、用电信息、配网抢修故障信息等系统的关键指标数据传输到大数据平台,利用大数据技术和云计算并行处理技术,对关键指标进行挖掘、分析,并通过三维可视化技术直观动态展现。平台的建设能够促进电力系统生产方式和管理方式的变革,推动风电、太阳能等新能源、清洁能源的消纳,帮助电力企业转变耗能高、排放高、效能低的现状,面向社会大众倡导节能减排理念,打造耗能低、排放低、效率高的绿色可持续发展方式,同时运用虚拟现实技术展现智能变电站、智能家居等智能电网取得的成果。
2.2 平台架构
建设大数据分析平台将逐渐融入智能电网全景数据,能够容纳海量、多样、快速率的电网运行、检修、能耗等电网信息资产数据,并运用海量数据和云计算模式提供高性能并行处理能力,以较快速度解析出规律性或根本性的判断、趋势或预测,在智能调度、状态检测、电能损耗分析、负荷分布式控制、用户侧短期负荷预测等领域存在极高的应用价值。
电网全景数据的接入、存储、管理和挖掘利用离不开先进技术的大数据平台支撑,数据服务质量的提高更离不开技术的保障。基于大数据架构的智能电网可视化平台的建设,采用Hadoop技术架构,该架构具备开源、可扩展、分布式应用计算的特点,为大数据实例化、具体化的应用提供了有效支撑。本项目引入基于 Hadoop 架构的分布式存储、并行计算和多维索引技术,立足电力行业大数据自身特点,通过建立分布式并行计算平台,结合数据中心,解决电力生产、调度运行过程中需要准实时大规模信息采集、高吞吐、大并发地数据存取和快速高效地分析计算问题。系统物理架构如图1所示。
3 应用场景
智能电网可视化平台的建设,紧紧抓住了政府打造“保定・电谷”可再生能源产业基地的契机。平台采用了先进的多媒体动画技术以及三维虚拟现实技术,实时、直观地反映保定电谷智能电网运行状态及业务管理过程,并为电网管理人员做出决策提供了辅助支持;平台立足于坚强智能电网与城市理念、发展及生活的关系,展现智能电网对保定电谷的支撑作用和重要意义,同时向全社会直观展示了智能电网支撑中国经济可持续发展的作用,更体现了人与自然和谐相处的主题,增强了社会对公司的感知度和认知度。系统主要包括下述几个方面的应用。
3.1 配电自动化系统
配电自动化系统目前采用数据批量导入方式,从调度部门获取配电自动化主站系统每日288点数据,导入智能电网可视化平台系统数据库,供指标提取。主要内容包括:
GIS地图,以GIS地图方式,对电谷区域进行展示,同时对电谷区域涉及的两座智能变电站进行标记,直观展示保定智能电网分布情况。
谷峰差,以柱状图方式对东尹庄、花庄两座变电站上月每天谷峰差进行展示,为工作人员分析用电情况提供依据。
谷峰差率,以柱状图方式对东尹庄、花庄两座变电站上月每天谷峰差进行展示,为工作人员分析用电情况提供依据24小时实时负荷对比。
遥控成功率,以仪表盘方式对电谷区域终端设备遥控成功率进行展示。
终端在线率,以仪表盘形式对智能电网建设中的智能终端设备的在线率与投运率记性展示。
3.2 输电线路在线监测系统
智能电网可视化平台目前对输电线路在线监测系统以链接的方式进行了数据接入,主要对线路在线监测系统中安装的监控设备反馈回的现场环境信息进行展示,具体包括以下内容:
气象信息。利用输电线路气象监测设备进行数据采集分析,最终以表格的形式将当天某一时刻数据展示到输电线路在线监测系统中,主要包括风速、降雨量、气温、气压、相对温度、最大风速、极大风速、光照强度等数据。
绝缘子污秽。利用绝缘子污秽度监测设备进行数据采集,具体包括盐密、灰密等指标。以曲线形式将最近一个月的数据展示到输电线路在线监测系统中。
导线温度。主要对导线温度进行监测,最总以曲线的形式将最近一个月的数据展示到输电线路在线监测系统中。
导线弧垂。对导线弧垂、导线对地距离进行监测,以曲线的形式将最近一个月的数据展示到系统中。
塔杆周边环境。通过高清摄像头对塔杆周边环境进行实时监测,将塔杆周边环境照片传输给系统,固定时间间隔更新图片。
3.3 清洁能源
开展了分布式光伏电源l电预测研究,开展了光伏电源接入系统电压稳定、准入容量、电能质量等专题亚牛,开展了分布式光伏发电实时监控研究。
新能源系统接入。采集每个月用户的各种数据,形成保定地区的光伏用户分布图。通过数据沉淀及数据分析方式,展示出每个光伏用户的发电量。
光伏发电、风力发电实时监控。通过安装高清摄像头,对国网保定供电公司下英利产业园光伏发电设备进行实时监控,将监控画面传输到可视化平台系统中,供工作人员参考。对曲阳等地风力发电设备进行实时监控,将设备运行状态信息传输到智能电网可视化平台系统中。
3.4 智能家居
对智能家居进行两方面展示,一是对智能家居概念及应用情况进行了文字性介绍,二是通过视频仿真模拟技术,对保定智能电网建设工程在智能家居领域取得的成果进行展示。主要包括智能安防控制系统、智能家居控制器、智能灯光控制系统、智能家电控制系统、家庭直流光伏系统五部分。
3.5 配网故障抢修
通过GIS地图展示故障点位置,突出显示,点击查看具体故障信息,并对停电影响的台区及用户信息进行查询。同时实现车辆信息的实时监控展示。
GIS地图。通过GIS地图方式,将故障点进行标注。直观反映给工作人员,提高故障处理效率。
数据接入。将故障抢修系统中故障分布统计情况、故障点位置信息、故障原因等数据进行提取。通过图表、表格等形式进行展示。
车辆定位功能。实现对抢修车辆位置定位功能,显示抢修车辆的实时运行轨迹。
停电范围影响查询功能。实现停电影响台区和用户的查询功能。
3.6 现场监控
加大对发电设备监控力度,对智能变电站、英利产业园光伏发电设备、曲阳等地风力发电设备安装高清摄像头,进行视频监控。通过视频图像采集终端设备以及无线网络,将传来的图片、视频等数据展示在智能电网可视化平台系统中。
3.7 智能变电站
智能电网可视化平台系统对智能变电站的建设规模、建设内容进行了介绍。并且对智能变电站进行了三维仿真模拟,对智能变电站进行了全方位展示。
4 结论
近年来,随着坚强智能电网全面建设的不断推进,电网数据资源呈现几何级增长,大数据、云计算为代表的全新IT技术在电力系统的建设中被广泛应用,数据与技术的结合,为优化电能生产、合理调配资源提供了决策依据。运用大数据、云计算技术推动智能电网的发展已经成为时代的必然选择,而大数据也必将成为电力企业的核心 资产。
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)03-0245-03
Application of Big Data Analysis Technology in Wind Power Equipment Anomaly Prediction
ZHANG Hui-ting, WANG Jian, LING Wei-qing
(CIMS Research Center,Tongji University, Shanghai 201804, China)
Abstract: According to the working conditions of wind turbine generator monitoring complex, large amount of data, multi-source, complex, the characteristics of rapid growth, the abnormal current prediction methods in the face of big data to ensure accuracy and rapid processing, the proposed combination of Hadoop batch processing technology and BP neural network of wind turbine online anomaly prediction model, abnormal prediction of equipment state information. The experimental results show that the method has good acceleration effect under the premise of ensuring the accuracy, which can provide important reference information for the wind farm maintenance staff.
Key words: wind turbine; anomaly prediction; Hadoop batch processing;BP neural network
风能作为一种蕴藏量巨大且无污染的可再生能源,受到世界各国的关注与日俱增。但是,风电机组的故障率会随着运行时间的加长而不断升高,这就需要对机组主要部件的故障做好预防工作。目前,风 电 业 主 广 泛 采 用 数 据 采 集 与 监 控(supervisory control and data acquisition,SCADA)系统监测风电机组及其部件的运行状态,然而,SCADA 系统的监测项目针对各自监控的对象,仅仅依靠对监测数据设置阀值来进行越限报警,而且在线监测信息量大、采集数据点密,传统的监控系统难以满足海量监测稻莸脑谙叽理需求[1]。因此,如何通过风电机组状态监测大数据进行快速有效的机组设备异常预测成为了新的课题。
较多研究者通过建立状态参数预测模型,分析风电机组运行状态的真实变化情况。文献[2]通过对齿轮箱温度趋势的分析建立了预测模型,该模型是基于单一运行参数针对某个子系统构建的,预测精度有待提高。文献[3]首先建立了主轴轴承、齿轮箱的多元线性回归温度预测模型来对部件温度进行一步超前预测。文献[4]提出了一种基于最小二乘支持向量机的风电机组故障预警方法,利用实际风场机组运行监控数据验证了此方法的可行性,但是,对于结构复杂的海量监测数据,该方法在保证精度的情况下难以满足我们对于处理速度的要求。
针对如上问题,本文提出了结合Hadoop批处理技术和BP神经网络状态参数模型的风电机组异常预测方法。首先,使用Hadoop平台存储海量历史状态监测数据,依据选取的状态参数,实现基于BP神经网络的异常预测算法,然后使用MapReduce框架并行的对预测模型进行训练,以获得较好的加速效果,最后,通过实验验证该异常预测模型的有效性和精确性。
1 风电设备异常预测模型体系概述
1.1 模型框架
基于模型预测精度与数据处理速度的需要,本文基于Hadoop集群,运用MapReduce框架,提出了兼顾预测精度与运行速度的风电设备异常预测模型,该模型的框架结构如图1所示,主要包括数据采集层、存储层、分析层、应用层等4个模块。
具体模块描述如下:
1)数据采集层。主要包括风电设备的状态监测数据、天气数据、地理信息数据
以及各种特殊传感器等业务系统的生产运行管理数据。这些数据来源不一、模态各异,而且存在大量的重复数据,该模块主要完成异常数据和重复数据的清除工作,清理后的数据使用Sqoop等大数据连接器技术传输到分布式数据库或者文件系统中,Sqoop在传输数据时会自动对其格式进行标准化的调整,减少了人为的序列/反序列化操作。
2)存储层。本文主要采用HBase,Hive等分布式数据库作为存储介质,HBase是一个构建在HDFS上的分布式列存储系统,它具有高可靠、高性能以及可伸缩等特点,可以方便地在服务器上搭建起大规模结构化存储集群。Hive是基于Hadoop的一个数据仓库工具,提供类sql查询功能,可以将sql语句转译为MapReduce作业并在Hadoop上执行,便于大批量数据处理任务的并行运行[5]。这些分布式数据库都具有高容错率和高吞吐量的特点,可以很好地满足海量历史监测数据的存储要求,并且适用于数据的批处理访问模式。
3)分析层。集成有训练好的BP神经网络预测模型,基于SCADA状态监测数据、天气数据以及地理信息数据,应用大数据分析技术进行风电设备的异常状态预测。
传统的BP神经网络训练方法在处理海量数据集时面临耗时长,甚至是内存不足无法训练等问题,本文在开源云计算平台Hadoop 的基础上,实现了基于MapReduce框架的BP神经网络并行化运行方式,可以并行的对训练样本进行批量训练,大大地提升了模型的精度和运行速度。
4)应用层。该模块使用训练好的异常预测模型,结合在线输入的监测数据,进而获得状态参数的预测值,计算模型输出值与实际监测值的残差,当残差发生剧烈波动时,判断风电设备的运行状态出现异常,并通过数据可视化技术对相关人员进行展示。
1.2 基于MapReduce的BP神经网络预测模型
BP神经网络是一种按误差反向传播算法训练的多层前馈网络,在各个领域得到了广泛的应用,它能够很好地表示任意的非线性映射关系,而无需事前了解描述这种映射关系的数学方程。BP神经网络的拓扑结构包括输出层、输入层和若干隐层,它的学习算法使用最速下降法,通过不断调整网络的权值和阀值来使网络的误差平方和最小。有研究表明,只要隐层含有足够多的神经元数目,仅仅包含一个隐层的神经网络就能够以任意精度逼近一个连续的非线性函数[6]。因此,本文采用只含有一个隐层的神经网络模型,模型示意图如图2所示:
为了运用并行运算的方法来减少算法运行时间,本文参考文献[7]中对 BP神经网络算法的MapReduce并行化方法,在Map阶段对每个权值的变化量进行计算并输出,然后在Reduce阶段对各个权值的总变化量进行统计,之后再统一调整权值,并且使用批处理的方式进行训练。
1.3 风电机组异常预测运行流程
受风速的波动变化和天气的季节性变化影响,风电机组的运行环境经常发生剧烈的动态变化,因而需要在不同的运行工况之间进行频繁地切换,导致设备状态监测数据的幅值在正常运行状态下也会发生较大的变化,这意味着我们不能根据幅值的大小来判断机组的运行安全程度。而目前主流的做法都是采用阀值报警的方法,即如果监测信号达到了报警阀值,则判断机组的运行状态出现异常,这导致了很多漏报和误报的情况发生,为了提高风电设备异常预测的精确度,本文采用了残差分析的方式对机组的运行状态进行判断,基本流程如图3所示:
具体过程阐述如下:
1)选取风电机组正常运行状态下的 SCADA 数据,经过预处理得到可用的监测数据,然后将这些数据按一定的比例划分为训练数据和测试数据。
2)训练数据经过归一化处理后,选取风速、齿轮箱油温、机舱振动传感器X、机舱振动传感器Y,机舱振动有效值和发电机转速等6个状态参数为模型的输入参数,对BP神经网络模型进行训练,直到模型的输出值误差达到理想的范围。
3)用预测模型对目标参数进行预测,与实际值对比,获得残差,如果残差没有超过阈值,则判断状态正常。
4)如果残差超过阈值,则采用式(1)计算均方根误差(root-mean- square-error,RMSE),来衡量残差变化的剧烈程度,应用目前流行的滑动窗口技术,可以更加准确的反映其变化趋势,本文通过计算每天的 RMSE,来获得 RMSE 的变化情况。
[D=1mi=1mxi-x2] (1)
式中:D为均方根误差;m 为样本数;x为模型的预测值;xi为实际值。
5)当RMSE超过阈值,则判断机组状态出现异常。
1.4 实验结果与分析
为了模拟风电场大数据风电机组异常状态预测的相关情况,在实验室搭建的Hadoop平台上对本文所述方法进行了仿真实验,Hadoop集群由一个主节点(Master)
个两个从节点(Slave)组成,各节点是由Windows Server 2012 上的Hyper-V管理器创建的虚拟机,节点的内存为2G,硬盘为200G,在开发的过程中用到了Eclipse、Hive、HBase等工具。
实验采用某风电公司风电场提供的2015年6月到2016年9月产生的实际运行数据,其中包含37台风机的监测数据,选取其中15台风机2016年7月份共15组监测数据,按一定的比例抽取数据作为测试样本,对模型进行训练,每组训练1000次,使得模型输出值误差范围达到满意的效果,进而得到性能良好的神经网络预测模型。
为了验证模型状态参数预测的精确度,选取对应1台风机2016年7月份的共15组监测数据作为测试样本对模型进行测试,预测下一时刻齿轮箱油温平均值,如图4所示为其中2台风机实际监测值与模型预测值的对比效果,其中,预测值为蓝色曲线,真实值为红色曲线,可以看到,两条曲线基本吻合,验证了模型的有效性和精确性。
图4 模型预测效果对比图
为了测试模型并行化之后的加速效果,对同样大小测试数据集分别在单机和集群环境下测试程序运行时间,发现当测试数据量较小时,单机所用时间少于集群运行时间,而随着数据集的增大,集群的计算优势就越来越明显。
1.5 结束语
针对在海量历史监测数据基础上如何快速有效的对风电设备的异常运行状态进行预测这一问题,本文基于当前主流的大数据技术,设计并实现了风电设备的异常预测模型。基于Hadoop的MapReduce框架,通过对训练样本学习得到并行化的BP神经网络预测模型,提高数据批处理的效率,加速风电机组异常状态预测的计算过程和数据处理的效率。实例表明,在正常运行工况下,预测模型能准确地对状态参数进行预测,同时具有出较好的加速效果,满足海量监测数据环境下风电机组在线异常状态预测的要求。
参考文献:
[1] Bin Lu, Yaoyu Li, Xin Wu and Zhongzhou Yang. A Review of Recent Advances
in Wind Turbine Condition Monitoring and Fault Diagnosis[J]. PEMWA 2009, IEEE, 2009(6): 1-7.
[2] 郭鹏, David Infield, 杨锡运. 风电机组齿轮箱温度趋势状态监测及分析方法[J]. 中国电机工程学报, 2011,31(32): 129-136.
[3] 张小田. 基于回归分析的风机主要部件的故障预测方法研究[D]. 北京: 华北电力大学, 2013.
[4] 许骏龙, 李征. 基于支持向量机的风电机组故障预警[J]. 工业控制计算机, 2013(8): 54-56.
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的
主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。
3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。
4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。
5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。
三、数据分析的方法
Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。
知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:
1.依赖性分析
依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。
2.聚类和分类
在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。
3.神经网络
神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。