欢迎来到速发表网!

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 数据挖掘技术应用

数据挖掘技术应用样例十一篇

时间:2023-01-26 06:59:49

序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘技术应用范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!

数据挖掘技术应用

篇1

中图分类号:TP393 文献标识码:A

一、数据挖掘在市场营销的应用

数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。

就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。

二、入侵检测中数据挖掘技术的引入

入侵检测技术是对(网络)系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。

根据数据分析方法(也就是检测方法)的不同,我们可以将入侵检测系统分为两类:(1)误用检测(Misuse? Detection)。又称为基于特征的检测,它是根据已知的攻击行为建立一个特征库,然后去匹配已发生的动作,如果一致则表明它是一个入侵行为。(2)异常检测(Anomaly Detection)。又称为基于行为的检测,它是建立一个正常的特征库,根据使用者的行为或资源使用状况来判断是否入侵。

将这两种分析方法结合起来,可以获得更好的性能。异常检测可以使系统检测新的、未知的攻击或其他情况;误用检测通过防止耐心的攻击者逐步改变行为模式使得异常检测器将攻击行为认为是合法的,从而保护异常检测的完整性。

三、算法在入侵检测中的具体使用

(一)基于误用的检测型。

首先从网络或是主机上获取原始二进制的数据文件,再把这些数据进行处理,转换成ASCII码表示的数据分组形式。再经过预处理模块将这些网络数据表示成连接记录的形式,每个连接记录都是由选定的特征属性表示的。再进行完上面的工作后,对上述的由特征属性组成的模式记录进行处理,总结出其中的统计特征,包括在一时间段内与目标主机相同的连接记录的次数、发生SYN错误的连接百分比、目标端口相同的连接所占的百分比等等一系列的统计特征。最后,就可以进行下面的检测分析工作,利用分类算法,比如RIPPER 、C4.5等建立分类模型。只有这样才能建立一个实用性较强、效果更好的分类模型。

(二)基于异常的入侵模型。

异常检测的主要工作就是通过构造正常活动集合,然后利用得到的一组观察数值的偏离程度来判断用户行为的变化,以此来觉得是否属于入侵的一种检测技术。异常检测的优点在于它具有检测未知攻击模式的能力,不论攻击者采用什么样的攻击策略,异常检测模型依然可以通过检测它与已知模式集合之间的差异来判断用户的行为是否异常。

在异常检测中主要用到的两个算法就是模式比较和聚类算法:(1)模式比较。在模式比较算法中首先通过关联规则和序列规则建立正常的行为模式,然后通过模式比较算法来区别正常行为和入侵行为。(2)聚类算法。聚类分析的基本思想主要源于入侵与正常模式上的不同及正常行为数目应远大于入侵行为数目的条件,因此能够将数据集划分为不同的类别,由此分辨出正常和异常行为来检测入侵。数据挖掘中常用的聚类算法有K-means、模糊聚类、遗传聚类等。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵。该方法不需要手工或其他的分类,也不需要进行训练。因此呢功能发现新型的和未知的入侵类型。

四、结论

入侵检测中数据挖掘技术方面的研究已经有很多,发表的论文也已经有好多,但是应用难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的属性,并应用合适的算法进行数据挖掘。另一技术难点在于如何将数据挖掘结果自动应用到实际IDS中。

入侵检测采用的技术有多种类型,其中基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点,但数据挖掘还处于发展时期,因此有必要对它进行更深入的研究。

(作者单位:湖北工业大学 计算机学院)

参考文献:

篇2

1 数据挖掘技术的方法

数据挖掘技术的方法主要分为统计、聚类和遗传分析[1]。统计方法可以满足数据库处理分析,包括:有线、非线、回归等多项统计方法;聚类方法应用于数据挖掘的内部处理,梳理内部数据的关系,基于聚类方法的存在,数据挖掘技术可以满足经济、模拟等多项数据领域的需求;遗传分析是数据挖掘方法的重点,以生物进化为导向,将重组、变异导入到数据库内,推进数据的后续发展,将后续模拟的数据,应用在现代数据库的某个部分,发挥同样作用,遗传算法高度模拟生物进化的方式,结合繁殖、基因、突变、重组的概念,引入新数据,促使数据库中新个体的形成,所以数据挖掘中的遗传算法,既可以作为数据分析的方法,也可以体现预算和评估的特点。

2 数据挖掘的技术支持

2.1 神经网络技术

神经网络主要以数学模型为主,重点针对复杂数据,快速完成数据抽取。神经网络技术处理的能力,可以超出计算机的分析水平,保障输入神经网络中的数据属于数值型,即可快速导出趋势性变化的数据。神经网络技术通过模拟大脑的神经元结构,利用MP,实现非线性规划,根据数据信息的特性,决定信息的存储位置,实现自主处理。神经网络技术在数据挖掘中,不仅可以实现数据的快速分类,还可以对数据进行模拟预测,促使数据挖掘处于优化的状态,完成难度聚类。神经网络技术的代表为RBF和BP。

2.2 决策树技术

此技术以模拟离散函数为主,借助树木模型,对实际案例进行综合分类处理。决策树的叶子,代表不同结点,而结点则是组成实例不同属性的测试,未来枝叶的分支,表示可能覆盖的属性预测[2]。决策树在根部向枝叶推进的过程中,蕴含丰富的数据挖掘,目的是得出有价值的属性信息,所以决策树理论支持数据挖掘的分析和分类,对相同属性的数据进行归类存储,进而挖掘数据分类中遵循的规则。

3 数据挖掘技术的应用领域

3.1 通信服务行业

在数据挖掘技术的带动和参与下,通信服务行业逐渐趋向于“三网融合”,即:电信、互联和电视,势必涉及诸多数据运营,数据挖掘技术可以针对三网状态,实行模式分析,挖掘商业潜能。例如:数据挖掘技术可以对通信数据进行分析,得出通信系统实时运行的参数和状态,以聚类的方式,归类系统数据,还可直接分析用户的实际行为,拓宽业务途径,同时发现发展机遇,提升通信服务行业的社会效益。

3.2 高校管理系统

数据挖掘技术在高校中的应用较为明显,例如:学生信息管理系统、教务评价系统、成绩查询系统、选课系统等,都可体现数据挖掘技术的优点。高校学生数量较多,通过数据挖掘技术,可以为学生提供一体化服务,学生在入学之际,即可将信息录入在管理系统内,整个在校期间,都可通过管理系统,查询个人信息,管理者也可以根据管理系统,快速调取学生信息,如:图书借阅、饭卡充值等,随时关注学生的信息动态[3]。高校在数据管理方面,已经实现多系统的融合发展,在数据挖掘技术的支持下,将不同功能的数据系统,兼容于统一系统,不论是学生,还是教务人员,利用独立账号、密码,都可实现个人信息管理或查询,对数据挖掘技术提供更高的发展要求。

3.3 医学领域

医学领域不仅涉及大量的信息数据,而且数据的编排、汇总非常复杂,大量数据同时出现的过程中,几乎不会出现相同数据,因此,医学领域的数据管理,具备一定难度。数据挖掘技术成功应用于医院数据管理中,特别是在病历管理、医药信息管理方面,例如:数据挖掘技术可以整合医药信息,将医药信息存储于数据库系统内,医务人员可以通过检索的方式,在管理系统内,迅速获得所需信息,避免信息筛选错误,提高信息识别的能力。由此,医务人员在信息管理和校对方面,提高操作效率,确保数据挖掘的质量。

3.4 金融行业

金融行业中的数据分类比较明确,如:信贷数据、储蓄数据等,需对数据采取合理的分配和管理。数据挖掘技术在金融行业中,为数据管理提供可靠的空间,成为管理金融数据的最佳方式[4]。数据挖掘技术具备独立分析的能力,可以在数据库中,设置多维参考点,对不同类型的数据实行严格区分,根据数据的异同性质,实行准确处理,发挥数据挖掘的优势,维持金融数据的运行。数据挖掘技术还可以根据金融数据的动态变化,有效发现影响金融活动的不良因素,防止金融行业出现数据漏洞,造成管理弊端。

综上所述,随着数据挖掘技术的发展,其在行业领域中的应用越来越广泛,为数据运行提供强大的技术支持。数据挖掘技术可以迅速获取有效信息,体现准确识别的能力,改善数据运行,因此,数据挖掘技术成为行业发展与进步的重要途径,不仅提高信息处理的能力,还可以保障信息处理的效率和价值,同时提高行业信息技术水平。

[参考文献]

[1]罗斌.数据挖掘研究进展[J].中国水运,2012(07):90-92.

篇3

中图分类号:TP311.13

1 数据挖掘技术

1.1 数据挖掘概念

所谓数据挖掘,简单理解就是从海量数据中挖掘出对用户有利用价值的信息,并根据分析结果判断数据与数据之间的关系。人们利用数据技术的主要目的就在于从混乱的数据信息中分析出能够对未来经营策略有用的信息,进而能够更好更高效的经营企业,获得更多经营利润。

1.2 数据挖掘技术分类

关于数据挖掘针对其挖掘的对象,大致的可以做出以下分类,具体分为时态数据库、异质数据库、文本数据源、关系数据库面向对象数据库(Object-Oriented Database)、空间数据库、遗产数据库、多媒体数据库以及web等比较具有针对性的挖掘对象。针对数据挖掘的方法大致的可以归纳为:计算机学习法、数理统计法、信息聚类分析法、遗传算法Genetic Algorithm、神经网络 Neural Network探索性分析法、不确定性推理和近似推理法、数据分析法、证据理论和元模式法、数据集成方法、当代数学分析法等。

1.3 数据挖掘应用分析

随着当前计算机技术和信息技术的飞速发展,数据分析已经成为当前各行各业的重要研究内容,数据挖掘技术可以说是时展的产物。传统意义上的数据收集已经很难以应付当前数据信息瞬息万变的局面,企业需要发展就需要高价值率的数据库作保证。企业在市场竞争中,只有掌握了最为准确的市场分析数据,才能够更好的去确定未来的发展方向,才能够更好的提高资金利用率。高层次数据分析是很多企业所面临的重点问题,不管是行政决策还是市场预判,均需要这类数据来提供可靠参考。所以,研究数据挖掘技术与关联规则挖掘算法具有非常重要的现实意义。

2 时态约束关联规则挖掘问题及算法

2.1 聚焦挖掘任务,提高挖掘效率

早期的数据挖掘理论主要研究方向是模型建立及挖掘算法设计,不同企业所收集数据类型不同,所以在实际使用过程中模型及算法的确定也不同。传统数据挖掘过程,首先需要做的是对提供的数据库进行全面分析,然后再结合用户需求进行更为深入细致的研究,制定出最佳数据挖掘模型,如果最终所得到的分析结果并未达到用户满意,则重新分析研究制定模型进行二次数据挖掘。算法也是影响数据挖掘结果的关键,不同算法在不同模型下所得到的结果也不同,因此制定数据挖掘模型及算法是用户是否能够得到预期结果的重要参数。

2.2 保证挖掘的精确性

虽然数据挖掘的目的是为了能够帮助用户获得更多有价值的参考结论,但其结果具有不可预测性的特点。数据挖掘过程中算法的运用还会设计很多问题,这些问题的出现肯定会对最终的结果可靠性造成一定影响,因此必须要在算法中加入反馈机制,以便于在计算过程中对结果进行测试和修正。

3 数据分割下的挖掘问题及算法

对于理论基础比较成熟的算法――Apriori算法,研究的侧重点已经变为效率问题,人们也提出了各种的改进算法,本文选区几种比较有代表性的加以介绍。

3.1 减少事务的个数

如果在事务处理过程中去除长度小于k的项目集,那么在后期计算过程中肯定不会再出现长度为k+1的项目集。因此,在数据挖掘过程中我们可以通过算法直接将无用事务滤除,以便于在下轮扫描过程中简化操作过程,提高数据挖掘效率。

3.2 基于划分的方法

这类算法的比较典型的是频繁项目生成算法,该算法原理在于:把数据库分解成逻辑上互不交叉的部分,而每次只需要单独考虑一个分块,在这样的分块中,研究怎样能够发掘频繁项目集;而对于怎样将数据进入存储中,可以把需要处理的分块放入计算机内存中,这样有利于算法的并行处理,数据量相对于不分块前减少,提高了数据挖掘的速度。

3.3 基于采样的方法

数据库抽样计算的目的是获得更直接的规则,进而能够方便于后期的数据挖掘过程,通过抽样检验我们可以更为直观的判断关联规则是否有效,是否能够更加简便的获得用户所需目标。基于采样的数据挖掘算法在实现方法上要容易一些,而且还可以最大限度的降低数据挖掘过程所需要提供的I/O成本。但同时这种算法也会使得抽样数据随机性大大增加,进而使得数据挖掘过程中出现的问题增多,给数据挖掘带来额外负担。基于统计学理论的抽样算法,虽然在计算精度上无法与其他算法相媲美,但如果我们结合相关数据挖掘理论进行更为深入的分析研究,还是能够在精度上进行一定的弥补。

4 交互式的可视化方法

关联规则可视化研究是当前关联规则挖掘在数据挖掘技术走向实用化的重要内容之一,通过直观的、易懂的方式展现给用户是关联规则挖掘是否能够高效应用的关键。当前社会上可视化方法中使用最为广泛的是有向图、2D矩阵、3D显示等几种,这些方法中已经在实际生活中得到了广泛认可。但它们均有一个共同的特点就是将数据挖掘所得到的所有结果一次性通过不同颜色或者不同形状展现在表或者图中,这种页面显示必然会存在一定的混乱性,以致于其显示效果大打折扣。正是在这种前提下,交互式可视化方法受到了研究人员的关注。交互式可视化方法显示方式为:

第一,从宏观上来把握项与项之间存在的关系,通过不同图形或者颜色来达到视觉突出的效果,进而能够让用户更加直观的看到数据挖掘结果。关联规则挖掘所得到的结果中不同项与项之间是使用线条连接起来的,在这种情况下,用户可以通过了解某一个项其内部的关联信息,进而解决由于线条过多而造成的页面混乱情况。

第二,从微观上更加精确的把握每一个关联规则的支持度和信任度,通过数字化的形式来给出挖掘结果的表示比,进而帮助用户更直观更准确的获得数据挖掘结果。

第三,从分类显示的角度出发,将数据挖掘所得出的没有使用价值的规则剔除,通过不同图形或者颜色来增加视觉效果,这样从根本上提高了数据挖掘可视化目的。

5 结束语

数据挖掘技术与关联规则挖掘算法所包含的内容有很多,本文只是简单介绍了其中较为重要的一部分。在今后的工作中,笔者将继续致力于该领域的研究工作,以期能够获得更多有价值的研究成果。

参考文献:

[1]孟海东,李丹丹,吴鹏飞.基于数据场的量化关联规则挖掘方法设计[J].计算机与现代化,2013(01):8-11.

[2]陆新慧,吴陈,杨习贝.空间关联规则挖掘技术的研究及应用[J].计算机技术与发展,2013(05):26-29+33.

篇4

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2016)05-0000-00

1数据挖掘与数据挖掘技术的方法分析

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科,在几十年的发展过程中,已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术,而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用,也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术,所以,整个数据挖掘技术实际上是非常具有信息价值的,它能够帮助决策者更快的得到重要信息并作出决策,提高效率和准确率,是非常重要的知识凭证,能够在一定程度上提高当下企业的整体竞争力。

数据挖掘技术的核心就是分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。

1.1聚类分析法

简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。

1.2人工神经网络

人工神经网络是通过大批量的数据进行分析,而这种数据分析方式本身是建立在一定的数据模型基础上的,因此通常都可以随时根据数据需求进行分类,所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。

1.3关联性分析法

有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。

1.4特征性数据分析法

网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种,此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

2大数据时代下数据挖掘技术的具体应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。

2.1市场营销领域

市场营销其实就是数据挖掘技术最早运用的领域,通常根据客户的具体需求,进行客户分析,将不同的消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。

2.2科学研究领域

科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备,而实验测试和科学研究产生的数据往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律,实现数据挖掘的部分价值――科学知识的分析与运用。

2.3电信业领域

随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成了一个巨大的网络信息载体,如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。

2.4教育教学领域

教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育教学领域中数据整理的良好运作。

3结语

综上所述,数据挖掘技术对于当今社会的发展有着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖掘技术的质量和效率就成为了数据挖掘技术进步的方向。本文通过对于数据挖掘与数据挖掘技术的方法分析和大数据时代下数据挖掘技术的具体应用两个方面对于数据挖掘技术进行了简要的阐述和分析,相信在未来伴随着科学技术的进一步发展,数据挖掘技术也将更加强大。

参考文献

篇5

在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。

数据挖掘在DNA数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。

基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。

方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。

系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息,见图1。

启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。

没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。

如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。

选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。

结 论

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。

参考文献

篇6

Data mining technology in book purchase application

Xu Yi

Dalian vocational & technical college, Dalian, 116037, China

Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.

Key words: data mining; book purchases; tactic; SPSS

在信息高速传播、知识飞速更新的今天,图书馆只有正确合理地进行图书采购,才能够更好地实现其“在最恰当的时机,将最合适的图书,提供给最需要的读者”的目标。采用目前流行的数据挖掘技术,可以很好地对图书馆读者实际借阅情况进行分析,从而得出能够正确指导图书采购策略制定的信息,以保证图书馆能够更好地为读者服务。

1 数据挖掘简介

数据挖掘是一门涉及人工智能、数理统计、数据库、可视化、并行计算等多领域的交叉性新兴学科。数据挖掘就是将隐藏在大量数据信息中的那些对用户有用的信息提取出来的过程,这些信息通常会以:规则、概念、规律以及模式等形式展现出来,而提取的过程往往要采用一些特殊手段的非平凡过程,即数据挖掘技术。提取出来的信息可以帮助决策者分析历史的和当前的数据,发现隐藏在其中的联系和规律,从而对未来可能发生的情况进行合理地判断和预测[1]。

2 基于数据挖掘的图书采购策略

描述式数据挖掘和预测式数据挖掘是数据挖掘技术的两种形式。描述式数据挖掘又称概念描述,是数据挖掘的最基本形式,以简明扼要的形式来描述给定的数据集,体现了数据的特征。我们使用特征化描述方式的数据挖掘方法,根据读者借书的历史记录,发现并描述读者的真正需求。实现特征化描述主要有准备数据、相关分析、归纳特征属性、表示和使用挖掘结果几个基本阶段[2]。

图1 流程图

2.1 准备数据

获得有关数据、对数据进行初步处理和准备。具体步骤如下:

(1)获取主要字段:读者类型、专业、书名、主题、编著者、出版社、出版时间、价格、索书号、条码等。

(2)整合数据归纳成库,保证相同字段的数据在类型格式上一致。

(3)拆分“主题”字段,限制1本书最多包含3个主题词,即3个主题字段,其他忽略。

(4)拆分合并后的数据库,按学科不同分成各学科的子库(这在数据挖掘过程中称为数据分组),对各个子库分别进行处理。

2.2 相关分析

对待挖掘数据库中的字段进行分析,剔除掉那些相关性不足的字段。具体步骤如下:

(1)选用恰当的方法对属性字段进行分析;

(2)将待挖掘数据库中的相关性不足字段剔除掉;

(3)整理保留的字段,主要有:读者类型、主题1、主题2、主题3、编著者、出版社。

2.3 归纳特征属性

根据实际情况,只进行单因素分析,即只计算比较单一属性值域读者需求的关联程度。

2.4 表示和使用结果

使用条形图、曲线图以及饼分图等图表形式将分析结果表现出来。用图书借阅次数来表示图书的人气系数,人气系数越高表明该类型的图书越受读者欢迎,计算公式为:

式中P为任一主题总的人气系数,m为主题在挖掘数据库中出现的次数,rj为主题的权系数,rj∈{3,2,1},Ki为借阅频率系数[3]。

3 数据挖掘在图书采购中的应用

这里笔者以所在学院的图书馆为研究对象进行研究。

3.1 统计数据

为了能够较真实地反应学院师生对图书借阅的情况,笔者设计了一份调查问卷,对学院电气系和汽车系的图书借阅者进行访问。该调查问卷包括单选题和多选题,内容涵盖了职业、系别、图书种类等(见表1)。

表1 借阅者借阅图书类别调查问卷

3.2 定义变量

对数据的定义笔者采用多项选择的二分法(Multiple dichotomy method),即将所有因素都设成一个变量,每个变量只有“1”和“0”两个水平值,代表“是”和“否”。例如用1来代表教师,0代表学生;专业方面用1表示电气系,0表示汽车系;图书类别中用1表示“经常借阅”,0表示“不经常借阅”。

3.3 分析数据

在这里选用SPSS统计分析软件对数据进行分析。

3.3.1 多重反应频数分析(见表2和表3)

3.3.2 多重反应列联表分析(见表4~7)

根据这些分析结果,图书采购人员就能够很好地制定出恰当适用的图书采购计划[4]。

4 结束语

以数据挖掘技术为基础,对实际图书馆中读者的借阅情况进行问卷调查,再利用SPSS软件对所调查问卷进行系统分析,虽然问卷数目较少,但对图书馆分析读者借阅需求指导图书采购提高服务能力有一定的帮助。

参考文献

[1] JiaweiHan, MichelineKamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

篇7

    数据挖掘(Data Mining),从名字来看就是从大量复杂的数据信息中挖掘出有利用价值的信息。通常,这些大量的复杂的数据信息都被认为是随机的、模糊的、不完全的、有噪音的,完全没有进行处理的信息。然而经过挖掘之后,这些原本看似没有任何利用价值的信息,就会呈现出一种新颖、有效、潜在有用的状态,最终为人们的生活与生产提供便利。这种信息数据的处理变化过程,就常常被称作是数据挖掘。它也可以理解成是在一些观察数据或事实的集合中找正确模式的决策支持过程。数据挖掘是一门涉及面极其广大的交叉学科,它可以简单的认为是经济信息转换的一个过程,同时它还包含了机器学习、模式识别、数据库、数理统计、神经网络、模糊数学等相关技术。

    数据挖掘的大体步骤是:数据的准备、数据的挖掘、结果的分析。在这样一个完整的过程中,处于核心地位的就是数据的挖掘。而它的功能主要包括数据的聚类、模型的预测、分析等。除此之外,在挖掘信息数据的过程中,通常还会牵涉到其它方面的技术,比如链接分析、聚集检测、关联规则等。

    数据挖掘主要功能有:预测模型、分类、数据聚类、数据总结、关联规则发现、依赖关系或依赖模型发现、序列模式发现等。根据数据挖掘技术的作用和特点来看,它具备的优点是:它具有自动找出有价值的数据信息的功能;它能够处理大量的数据信息;它反映数据信息快速有效;它能够有效的对数据信息进行分析与评判,描绘过去和未来。

    2、数据挖掘在经济统计中的体现

    对于经济统计问题,对于我们所要探究的问题一定要定义,并且确定此次数据挖掘的目的。1.数据准备。就是对我们即将要面对的经济问题中所涉及到的数据进行相应的采集,做好预处理这些工作,最终使数据得到简化,使后续工作能顺利进行。2.数据挖掘。根据数据的特点以及数据的类型选择相适应的算法,利用统计、人工智能等方法,去挖掘有利用价值的信息3.结果分析。对第二步得到的结果进行充分的分析和评估,同时也是通过这一步骤反过来去调整上面,来得到更好的方法,从而让结果更加真实。4.知识的运用。将得到的最符合实际的结果应用到现实的经济问题中去,使得经济能更好的运行和发展。

    3、数据挖掘技术在经济统计中的可行性研究

    3.1 能为经济统计提供有效的服务

    数据挖掘技术虽然经历的时间不是很长,然而,它的研究与应用水平已达到了一种相对稳定的状态。随着科学技术的不断发展,数据挖掘技术在各国也普遍受到关注,特别是在经济统计领域。数据挖掘技术能够这样的的迅速发展,在很大程度上也是依赖于它对经济统计的有效服务。

    3.2 能够为经济统计的不同需要提供不同的需求

    目前,最常见的数据挖掘工具主要有综合工具、通用型工具、和面向特定应用的工具。综合工具,不仅能够为处于商业中的经济体拿出有效的管理报告,并且还能够对普通经济结构中的数据信息经行深入挖掘。通用型工,在市场上占最大比例,在应用方面最为成熟的挖掘工具。面向特定应用工具,从字面来理解,这种工具就是针对特定领域来提供服务的,具有很强的特别性。

    3.3 建立宏观经济数据库,为数据挖掘的应用提供了良好的电子平台

    在目前的情况下,全国范围内的大部分经济统计部门主要使用的还是应用统计系统。大部分经济统计的数据信息都处于一种不相聚分散的状态,并没有形成一套有效的管理系统。经济统计过程中一旦出现问题,严重的就会导致经济数据的有效性与准确性受到影响。然而,当建立了宏观经济数据库以后,以上问题就可以寻找到有效的解决办法。当宏观经济数据库与数据挖掘技术一起合理运用,就能保证挖掘到的信息准确、真实。这样的情况下,在经济统计中数据挖掘技术就能为其提供更好的服务,不仅满足了现实中经济发展的需要,同时也为经济决策的制定提供了准确、重要的依据。

    4、数据挖掘在经济统计中的应用

    正是由于对数据的大量收集、数据算法的产生、经济数据库的出现、先进的计算机技术、对数据进行精深统计方法计算的能力、数据访问速度的提升等一系列东西的出现,使得数据挖掘技术的作用越来越广泛。由于经济统计中数据的实用性和准确性的需要,数据挖掘技术也开始慢慢在经济统计中大展身手。数据挖掘技术的主要方法有:

    4.1 统计分析法

    经济数据库字段项之间存在两种关系,相关关系和函数关系。就是对于数据库中的信息利用统计学原理来进行分析。

    4.2 决策树

    决策树一般用于预测模型,通过对大量复杂无顺序的数据有目的分类,找到有价值的信息。同时,正是因为描述简单,分类速度快,特别适合运用于经济运行过程中出现的大规模数据的处理。

    4.3 遗传算法

    它是一种根据生物遗传机理和自然选择的随机搜索算法,其主要思路是依据特定的社会问题,然后在指定对象中去采集相关信息,最后通过对信息中隐含部分的归整、分析,进而得到结果。经济问题不是固定不变的,相反它是一个不断发展变化的问题,内部的联系千丝万缕,改变其中一项其他的也会相应改变。按照遗传算法的步骤,从源头开始,我们就一步步向下探索,去提取信息数据,对整体进行分析,这样就能把经济问题目标化、具体化、直接化,使得在研究问题时可以更加直观,把隐性的表现出来,使得经济统计工作更加直白、简单。

    4.4 粗集理论法

    这是一种探究不确定知识、不精确的数学工具,它通过上下集比较而出来结果。它易于操作,算法简单;简化输入信息的表达空间;不需要给出额外信息。特别适合那些不确定的经济因素,同时正是通过这种原则,才能使得制定的经济决策与需求更加接近,为获得最大利益化给予了强有力支持。

    4.5 神经网络法

篇8

中图分类号:TP311.13

计算机数据挖掘技术对于庞大的数据有着整理分析的作用,这不仅仅对于企业的工作产生了巨大的作用,还对学校生活也提供重要的帮助。我们在接下来就要探究西夏计算机数据挖掘技术在学校、企业、军事方面等不同领域的应用情况。

1 在学校的实际应用情况

1.1 根据已有的数据进行预测。在学校里,我们学校通常都会对学生进行月考,这样使得学校会存有学生每月考试的成绩,在最后的期末考试前,学校可以利用计算机数据挖掘技术根据学生每月的月考成绩,预测出学生期末大概的考核成绩。这样,教师可以在期末考试前根据预测出来的成绩提醒学生着重复习哪一科目。这样不仅仅可以使得学生在期末更具有针对性的复习,还能使学校更好的掌握学生的学习情况,更好的对学生“因材施教”。

1.2 对学校食堂餐饮有着重要作用。学校由于人口众多,尤其是各个高校。学校的食堂也拥有着许多的流动人口,学校要想管好食堂的餐饮,就必须利用新兴的计算机数据挖掘技术。计算机挖掘技术由于对数据有着整理分析能力,所以,学校的食堂可以利用计算机技术整理食堂仓库的数据,这样使得工作人员很便捷的可以了解食堂的所需物品的数量,可以直接应用数据挖掘技术便可随时随地了解食堂所需物品的剩余量,从而及时的补给短缺的食材。学校食堂还可以利用计算机数据挖掘技术充分的配置不同的菜式菜样,保障营养均衡,同时,还可以对学生家乡进行统计,这样可以提供不同地区特色的饮食,在最大的限度下满足不同地区学生的饮食习惯。让学生在学校里也能品尝到家乡的味道,从而提高学生的亲切感。从而,让不同区域的学生可以在学校里安心读书,努力认真的学习。

1.3 对学生学习生活有很大的帮助。计算机数据挖掘技术也可以对大量的数据进行整合,学校教师可以充分利用这一特点,将学生的学习资料通过筛选整合后到校园网上,这样不仅仅使得学生查找资料时方便快捷,不必做过多的“无用功”,还使得学校的教育方式得到更新,与新信息技术接轨,提高了教学质量。在大学校园内,学校还可以利用数据挖掘技术的调节功能来调节学生选课情况,任何专业和自选课程都具有热门和冷门之分,这时候,学校可以利用计算机数据挖掘技术对学生报考的专业和课程进行调剂,这样,可以将学生平均分配。也可以调节冷门、热门专业课程的人数,从而做大限度让所有学生满意。学校还可以将计算机数据挖掘技术应用到我们的图书馆建设中。这样,使得图书馆在借阅管理方面就更加的便捷了。

1.4 在高校管理方面的应用。高校由于专业的繁多,以至于在院系下还细分出不同的专业,现在随着艺术类的出现、新型技术的出现,也使得高校又多了专业的划分。这对于高校的管理者来说,是一个巨大的挑战。所以,为了便于学校的管理,很多学校都利用计算机数据挖掘技术进行管理,从而使得高校管理者在管理学校的时候提高了工作效率,也节省了很多的人力物力。所以,将数据挖掘技术应用到高校的管理中,是一项正确多的决定。

2 计算机数据挖掘技术在企业的应用

2.1 在金融企业的应用及重要作用。金融企业是具有一定风险的企业,其重要的就是要对投资的风险做出评估,这样,才能在我们金融企业进行投资时把风险降到最低。这时,金融企业就利用计算机数据挖掘技术对我们的投资项目进行评估预测。如:在企业收购股票时,就要根据这只股票历史走向的数据做,从而做出评估,在做出较为精准的判断和选择。在金融业涉及到借贷款的问题时,企业要根据贷款对象日常的诚信做出调查,然后再进行数据的挖掘统计,从而判断出贷款对象是属于低风险还是高风险。由此可见,计算机数据挖掘技术对金融企业的投资、贷款有着重要的作用。

2.2 电子商务企业的应用。电子商务企业最注重的便是网站的浏览量和点击率及与客户的成交单子的数量。企业如何提高网站的浏览量和点击率和用户的交易数量就成了问题的核心。电子商务企业可以根据用户在浏览网页时的收藏物品的情况、购物车的情况、成交记录的情况进行物品的推荐。这就需要应用技术数据挖掘技术对用户的一系列情况做出数据的整合。通过数据的分析推荐的商品,及时客户最终没有购买,也会增加该物品的浏览量,这也使得我们电子商务的浏览量得到提升,从而增加企业在该行业的竞争力。

2.3 企业竞争的应用。社会经济在不断的发展进步,随着而来的相同企业的数量也在不断的增加,如何在众多相同的企业里脱颖而出是所有企业思考的问题。一个企业除了要具有自己的特色之外,还要充分了解对手的情况,这时,就需要我们的企业利用计算机数据挖掘技术对竞争企业进行系统的分析调差,这样,才能做到充分了解对手。吸取竞争对手的长处,在看到企业的短处时,也要使自己的企业避免相似的问题出现。所以,计算机数据挖掘技术在企业相互竞争时起着不可忽视的重大作用。

2.4 在煤矿性质企业的应用。煤矿企业一般来说是要科学合理的对地下资源进行挖掘,但由于种种原因,使得人们不能仅仅凭靠自己的力量就做出相应的判断。这时,就需要利用我们的计算机数据挖掘技术对地下煤矿进行数据的勘测,然后整合,我们可以依靠这个数据进行正确的判断。从而做到科学、合理的利用自然资源。计算机数据挖掘技术还能对煤矿企业的后期发展情况做出合理的预测。这除了需要运用到新型的媒体技术,还需要在煤矿企业经营的过程中正确的记录数据,保存数据。才能对企业的后期经营情况做出更好的判断。

3 在军事上的应用

随着社会逐渐的信息化,科技的不断进步,军事涉及的不单单只是以往的关注点,更是要注重利用新兴媒体技术对于数据进行收集、分析、整理。这样,不仅仅可以充分的掌握自己国家的军事实力,还能有效的监管外国敌对势力的部分情况。在科学技术的不断发展,使得人们对于传统的军事理解又上升到一个新的层面。这有利用数据精确的分析出敌对的势力在做些什么,才能更好的做出准备。只有利用高科技对于敌对势力的经济、政治、军事有了一个总体的把握,才能在战争真正开始的时候掌握主动权,更有可能取得战争的胜利。所以,任何一个国家,在军事当面,把计算机数据挖掘技术看的十分重要。这不仅仅需要高能力的计算机人才,更是需要具备国家荣誉感的人士。只有这样,才能清楚的把握住敌人的情况,在战争中做出正确的作战方式。由此可见,在军事方面,计算机数据挖掘技术的作用是最不容忽视的。

4 结束语

社会的科技在不断的发展进步,而计算机数据挖掘技术在我们的社会生活中的不同领域都发挥着其最大的作用。由此可见,我们的国家应当重视计算机数据挖掘技术,让其能在各行各业中发挥最大的作用,从而更好的为人民服务。企业要多利用计算机数据挖掘技术进行利益的最大化。学校要使得计算机数据挖掘技术发挥最大作用,给学生的生活、学校的管理带来便利。在军事方面,国家应当引起强烈的重视,培养出更好的人才来为国家效力,保卫国家的安全。

参考文献:

[1]卢明波,付亚平,德力.关于煤炭企业CRM与ERP系统整合应用的思考[J].煤炭技术,2009(12).

篇9

0引言

互联网的出现和发展很大程度改变了人类的生活习惯,与之有关的网络和互联网信息也日益丰富和复杂。一般而言,WEB发挥着在大数据库中提炼有用信息的功能,而WEB挖掘技术则发挥着从挖掘出的信息之间发现其相关性和怎样将其应用于具体问题解决之中的功能。目前,大量数据很难在一台计算机上进行处理分析,为了满足技术进步和社会发展的需求,云计算随之出现并快速发展,其凭借较强的信息存储能力、安全性能以及数据处理分析能力等,受到各行各业的广泛关注。

1云计算的应用现状和技术分析

1.1应用现状

WEB的发展经过了一个漫长的过程,随着信息技术的发展和电子商务的兴起,人们对互联网的应用日益频繁和依赖性日益加强,掀起了一股WEB2.0的发展热潮。对于互联网企业而言,信息需求分析能力已成为衡量企业竞争水平的重要指标,特别是根据用户需求建设的这类网站,比如视频网站就需通过数据分析来进行网站功能设计。总之,云计算的产生和应用有效解决了网络技术的一些发展难题。在国内网民数量巨大且持续增长的背景下,越来越多的大型企业通过云计算来进行数据加工处理和分析应用。

1.2技术特征

通常来讲,云计算主要针对数据管理,主要对象是数据信息,其和信息技术有显著差异,具体有以下几点:(1)广泛性。存储技术是云计算的关键技术之一,采取分布式存储模式来提升存储容量和存储安全性,且性价比较高,实用性较强;(2)数据管理能力较强。云计算可实时监控大数据,可随时随地进行数据处理分析,同时可有目的地筛选出有用数据信息,技术先进,效率较高;(3)编程技术的先进性。技术元素是衡量云计算能否满足客户需求的重要指标,是维持云计算系统正常运转的核心元素,由此可见,编程技术所发挥的作用无可取代。当前,Map-Reduce编程技术应用最为广泛,初期以树状结构呈现,分支之后还需其他编程技术来维护;(4)虚拟技术的应用。虚拟技术在云计算中的应用较多,这是由于虚拟技术能有效配置网络资源,脱离各分支系统独立存在,在将各分支系统独立化的同时,还将数据信息也分割成大量的独立部分。这种模式使得云计算系统的弹性较大,能灵活运用动态的虚拟资源,有效降低成本费用,提高网络资源管理的安全性。

2WEB数据挖掘技术的发展

2.1WEB数据挖掘技术的定义

WEB数据挖掘技术是结合WEB、信息技术、网络技术等对挖掘信息进行全面分析处理,WEB和数据挖掘的有效融合反映了较强的综合性,主要可分为基于内容、架构、应用等几种WEB数据挖掘技术。就内容方面而言,是在WEB环境下,通过人工模式从相关文件夹中提炼有用信息;就架构方面而言,是采取人工方式挖掘不同的数据结构,再采取有关手段来提炼有用信息;就应用方面而言,是将挖掘主体存储在日志文件之中,再据此来挖掘出站点的用户信息。因此,所谓的数据挖掘,即采取有关技术来提炼WEB文档中的有用信息,并据此来分析预测其未来发展趋势。总而言之,WEB挖掘技术并非是一项简单的技术,而是多种技术的有效融合和广泛应用。

2.2WEB数据挖掘技术的种类

通常来讲,关于WEB数据挖掘技术的种类有多种分类依据,一般是根据其对象类别划分为基于内容、架构、应用的三种WEB数据挖掘技术。就内容角度而言,其主要对象是WEB文档中数据信息,比如提炼出的图像、音频、视频等具体信息,且还可细分为纯文本数据挖掘和多媒体数据挖掘两种;就结构角度而言,其主要对象是数据架构,发挥着区分数据架构是组织架构还是页面架构的功能,并且还要对数据链进行详细分类,对WEB数据挖掘技术的效率和准确性的提升有显著作用;就应用角度而言,通过对WEB文档中的数据信息进行具体分析处理,来对用户类型进行详细分类,进而挖掘出更多的潜藏用户。

2.3WEB数据挖掘技术的流程

通常情况下,WEB挖掘技术的流程会受到较多元素的作用,和传统数据挖掘方式相比,其对象和手段有显著变化,所以其流程也有所差异。如何将数据挖掘技术和WEB相结合是目前该技术发展的主要难题,这是因为WEB数据挖掘技术并非是有关技术的简单应用,而是一个有机整体,需要经过检索信息、选择信息、分析信息等一系列流程。检索信息是对WEB文档中的数据信息或网站上的日志、新闻等内容进行查询分析;选择信息是对上一环节查询到的信息进行筛选辨别,去掉一些无用的数据信息,并对有用信息进行初步分析;分析信息是对待处理的数据信息进行深入的筛选辨别,提炼出有价值的数据信息。关于WEB数据挖掘的整个流程,不仅需要自动化设备的辅助,还需要人工辨别的支持。

3云计算在WEB数据挖掘技术中的应用初探

3.1以云计算为基础的WEB数据挖掘系统架构

WEB数据挖掘系统架构是由几个节点相互关联形成的,云计算发挥着使WEB数据挖掘系统架构各节点相互作用的功能,从而促进WEB数据挖掘系统的完善化,具体架构图如图1所示。主控节点是用户和其他节点关联的中枢纽带;算法节点则负责保证数据分析的相关算法支撑,类似于一个算法数据库;数据节点则是一个存储数据的大数据库;服务节点则发挥着控制任务进程和反馈分析结果的功能。(1)服务层。服务层是一个结合用户需求通过WEB数据挖掘技术来进行数据分析,同时将结果反馈给用户的过程;(2)控制层。控制层是通过主控节点来根据用户具体需求分析,选出最恰当的算法程序,保证算法程序和信息数据的契合度;(3)存储层。存储层主要发挥着存储使用的算法程序、用户需求和最终反馈结果的功能。存储层有效降低了原始数据或算法丢失的可能性,即使是系统故障,后续也可在数据和算法存储层找到相关的信息数据并且具有可恢复性;(4)业务处理层。业务处理层将数据库中的原始信息通过主控节点来进行初步分配,在数据进行分析处理之后,再由服务节点将分析结果反馈到主控节点。

3.2以云计算为基础的WEB数据挖掘算法程序

一般情况下,以云计算为基础的WEB数据挖掘算法程序的基本步骤如下:(1)结合用户需求来明确可信度,这种用户需求通常是通过WEB网页传递过来的;(2)WEB网页客户端向主控节点发出服务指令,数据节点会向主控节点传递原始数据,同时将服务节点分析的结果反馈到主控节点;(3)主控节点将信息数据传递给算法节点,从算法程序数据库中选出最优的数据挖掘算法程序,再分配至各服务节点;(4)各服务节点会有目的的筛选数据,并对信息数据进行整理分类,通过Apriori算法得到数据库的频集;(5)将分析结果反馈至主控节点,获取整体数据库的频集,再将其传递至各服务节点,提高节点上的频集准确性。如此反复,再将服务节点的分析结果反馈至主控节点,从而提高整体频集的准确性;(6)主控节点将最终结果反馈给用户。

3.3算法结果分析

算法程序结果的检验有赖于实验数据的支持,据分析结果显示,算法效率和信息量的关系成正相关,并且传递时间有差异,算法程序的传输时间要少于数据传输时间。与一般算法相比,WEB数据挖掘算法有显著不同,可通过改变其他算法来获得新算法程序。基于云计算的WEB数据挖掘算法是一个整体算法,各节点联系较强,有效避免了有效关联规则遗漏的问题。

4结语

总而言之,WEB数据挖掘技术是对通过WEB文档或其他网络手段提炼的信息进一步加工处理、分析运用的技术,其可结合人们的生活习惯和模式来掌握人们的具体需要。互联网的发展使得网络信息量呈几何式增长,对信息存储容量和数据分析能力的需求也有所提高,怎样突破技术限制来挖掘出有效的网络信息是目前互联网行业面临的主要问题。而云计算较强的信息存储能力和数据计算能力,使得其受到互联网行业的充分重视。基于云计算的WEB数据挖掘技术可统一管理控制网络资源,结合WEB数据挖掘系统来充分运用云计算的信息存储能力和数据计算能力,从而提升互联网信息资源的利用率。

参考文献

[1]孙雪凌.数据科学在高校学风治理工作中的应用探索[J].无线互联科技,2016(17):129-132.

[2]沈军霞,葛坤.新时期ERP系统应用与实践探讨[J].无线互联科技,2016(17):23-26.

[3]王光炜,薛玉倩.基于云计算的数据挖掘平台[J].内蒙古科技与经济,2016(19):65-69.

[4]张珏,陈莉,田建学.面向零售业的关联规则挖掘的研究与实现[J].计算机技术与发展,2016(10):146-150.

[5]邵传飞.基于数据挖掘的兵棋推演数据分析方法研究[J].通讯世界,2016(21):245-247.

[6]刘占敏,刘津伊,贾蓓.FP-Growth算法在学生成绩分析中的应用[J].信息与电脑(理论版),2016(13):85-87.

[7]高瑜,仝卫国.基于关联规则的一次风机故障预警方法研究[J].电力科学与工程,2016(10):46-49.

[8]王丽格.大数据时代下的数据挖掘和分析探究[J].科技展望,2016(30):201-203.

[9]熊伯安.基于大数据时代的数据挖掘及分析[J].电子世界,2016(20):51-53.

[10]谢邦昌,斯介生.大数据分析中轨迹数据挖掘的现状与挑战[J].中国统计,2016(08):459-461.

篇10

中图分类号:TP274 文献标识码:A 文章编号:1009-3044(2009)36-10410-02

Data Mining Technology and Application in Medicine

JIAO Rui, LI Xiang-sheng

(Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)

Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.

Key words: data mining; medical; application

计算机信息管理系统以及数据库技术在医疗机构的广泛应用,促进了医学信息的数字化,使得医院数据库的信息容量急剧增加。这些数据蕴含了大量关于病人的病史、诊断、检验和治疗的临床信息、药品管理信息、医院管理信息等。如何才能不被信息的大海所淹没,从中及时发现有用的知识,更好地为医院的决策管理、医疗、科研和教学服务,已越来越为人们所关注,正是在这种背景下,医学数据挖掘应运而生[1]。

1 数据挖掘技术

数据挖掘DM是知识发现KDD的核心部分,是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中、人们事先并不知道但又是潜在有用的信息和知识的过程,诞生于二十世纪90年代,它的发展速度很快,汇聚了数据库、人工智能、数理统计、可视化、并行计算等多个学科,是多技术的综合。

任务:数据挖掘的任务常见有以下几种。

1)数据总结:其目的是对数据进行浓缩,给出它的紧凑描述。它主要关心从数据泛化的角度来讨论数据总结。

2)关联分析:其目的是找出数据库中隐藏的关系网,常用的技术有回归分析、关联规则、信念网络等。

3)聚类分析:聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。它是根据数据的不同特征,将其划分为不同的数据类别。

4)分类与回归:它是数据挖掘中非常重要的任务,应用最为广泛。分类和回归都可用于预测,其目的是从已知的历史数据记录中自动推导出对给定的数据的推广描述,从而能对未来数据进行预测。

5)偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化等。

技术:数据挖掘技术涉及到统计学、机器学习和模式识别等领域的知识,根据挖掘任务,数据挖掘技术可以分为概念描述、聚类分析、关联规则分析、分类分析、回归分析、序列模式分析等。选择用某种数据挖掘技术前,首先要将待解决的问题转化成数据挖掘任务,然后根据任务来选择具体使用哪一种或几种数据挖掘技术[2]。

过程:数据挖掘的过程一般由三个主要的阶段构成:数据准备、数据挖掘、结果表达和解释,对知识的发现可以描述为这三个阶段的反复过程。

1)数据准备:这个阶段又可进一步分成三个子步骤:数据集成,数据选择、数据预处理。数据集成将多文件和多数据库运行环境中的数据进行组合,解决语义模糊性,处理数据中的遗漏和清洗无效数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。

2)数据挖掘:这个阶段进行实际性分析工作,包括的要点是:先决定如何产生假设,再选择合适的工具进行发掘知识的操作,最后进行证实。

3)结果表述和解释:根据用户的需求对提取的信息进行分析,挑选出有效信息,并且通过决策支持工具进行移交。因此,这一步骤的任务不仅是把结果表述出来,还要对信息进行过滤处理,如果不能令用户满意,需要重复以上数据挖掘的过程。

2 数据挖掘技术在医学中应用的可行性和必要性

由于医疗工作自身的特点,如病情观察的不可间断、各种医疗检查结果的纷繁复杂以及大量的医学文献专著等,要想使数据真正成为有用的资源,只有充分利用它为医疗工作的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。面对“被数据淹没,却饥饿于信息”的挑战,需要引进一门新的技术――数据挖掘和知识发现,以解决好海量医学信息的存储开发与利用。因此,在医学中应用数据挖掘技术不但是可行的而且是必要的。

运用数据挖掘技术,支持医院各种层次的科学决策服务,现在已具备了充分的条件。一方面,我国的医院信息系统经过多年的自动化建设,已具备相当的物质条件和人才储备,并积累了大量数据,为数据挖掘应用奠定了一定的物质基础。另一方面数据挖掘在经过多年的发展之后已经形成相对成熟的技术体系,特别是在数据挖掘设计、数据抽取以及联机分析处理技术等方面都取得了令人满意的进展,为数据挖掘的应用奠定了技术基础。

3 数据挖掘技术在医学的应用

近年来,数据挖掘技术在医学领域中的应用越来越广泛,主要表现在以下几方面。

3.1 在医院信息系统中的应用

目前,我国大中型医院均建立了医院信息系统(Hospital Information System,HIS),运用数据仓库和数据挖掘技术,对医院医疗活动过程中产生的海量数据进行深度加工可从中得到长期的、系统的、综合的数据;同时还可以通过决策树、神经网络、遗传算法、聚类等技术,对数据进行深层次的挖掘和有效利用,得到丰富的辅助决策信息。这两种技术的综合应用,能为医院的科学管理提供支持和依据,可以帮助医院管理者预测医院发展的趋势,满足更大范围、更深层次的管理分析需求,从宏观上把握医院的发展方向。

3.2 在疾病辅助诊断中的应用

医学诊断问题是基于知识的序贯诊断问题,医生通过一定途径获取知识,形成推理网络,而病例数据储存在数据库中,因此如何从病例数据库提取诊断规则成了研究的主题。采用数据挖掘可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,这样根据患者的年龄、性别、生理生化指标等就可以做出诊断结论,从而排除了人为因素的干扰。此外由于处理的数据量很大,因此所得到的诊断规则有着较好的应用普遍性。例如利用关联规则找出头部创伤患者作CT检查的适应证以及将数据挖掘用于肝癌遗传综合征的自动检测等等都显示出数据挖掘技术在疾病辅助诊断的广阔的应用前景。

3.3 在医学影像中的应用

当前医学多媒体数据主要来自医院中的一些成像仪器如:X光机、B超、CT、电子显微镜等,DICOM的出现,促进了医学影像存档与通信系统PACS的发展和使用,使得医院有可能将来自不同设备的医学影像进行集中、统一的管理和使用。数据挖掘是集数据处理技术最新成果的系统性理论,尤其适用于医学影像数据分析这类多维数据。

医学影像数据挖掘的关键技术有数据预处理、信息融合技术等。数据挖掘在医学影像中应用主要在以下三点:1)提高目标影像质量和边缘提取:利用数据挖掘理论中各种数据的预处理技术去除或降低图像噪声的影响,提高目标影像质量或对目标进行边缘提取。Hsu JH等人曾利用数据挖掘技术对乳腺超声影像的边缘检测算法进行研究并探讨了算法的有效性评估问题[3]。2)组织定征和概念描述:通过对目标器官或组织进行概念描述并概括这类对象的有关特征,从而获得或验证有关参数的动态范围。3)医学影像管理与检索: 目前,医学影像存档与通信系统( PACS) 已经发展成熟,基本解决了医学影像数据的存储管理问题, 但影像的检索始终是研究热点。数据挖掘技术的应用提供了两种解决方案:一是由病例描述检索医学影像信息;二是由影像信息查询病例可能诊断[4]。

3.4 在生物信息学中的应用

近年来生物医学工程研究有了迅猛发展,国内外学者采用数据挖掘技术在DNA分析、医学影像数据自动分析、糖尿病及心血管系统疾病患者多种生理参数监护数据分析等方面都进行了研究。

DNA在遗传学研究中的重要作用已经众所周知,数据挖掘理论中有许多有意义的序列模式分析和相似检索技术,因此数据挖掘技术被认为是DNA分析中的强有力工具。Jiawei Han和Micheline Ka-mher从异构和分布式基因数据的语义集成、DNA序列间相似的搜索和比较、同时发现的基因序列的识别、发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用[5]。

4 结束语

医学数据挖掘是计算机技术、人工智能、统计学等与现代医学信息相结合的产物,是一门涉及面广、技术难度大的新兴交叉学科,需要从事计算机、医学工程及医务工作者进行通力合作,力争在多属性医学信息的融合、挖掘算法的高效性和准确性等关键技术方面有所突破。

参考文献:

[1] 曲哲,林国庆,余奎.数据挖掘技术在医学影像中的应用[J].医疗设备信息,2004,19(6):33-34.

[2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering & Technology,2002(25):173-177.

篇11

社会经济的发展,使得电力资源在其中发挥的作用也日益提高,成为支撑社会持续发展不可获取的有力资源之一。为了更好地满足人们不断提高的用电需求,在电力营销中应用新技术、新的管理方式已经成为众多电力企业改革与发展的重点。本文主要就数据挖掘技术在电力营销系统中的应用进行一定的分析。

1 数据挖掘

1.1 数据挖掘的定义

数据挖掘是数据库知识发现中的一个主要步骤,它主要是指从大量的数据中自动地搜索隐藏于其中的有着特殊关系的信息的过程。通常数据挖掘与计算机科学有着紧密的关系,通过搜集、在线分析处理、情报检索、专家系统、模式辨别等方法实现上述目标。

1.2 数据挖掘技术

数据挖掘技术主要有聚类、关联分析、分类、空间挖掘、时序模式、预测六项。聚类可以帮助人们更好地认识客观现实,其方法主要有统计分析、机器学习、神经网络等。如果两个或多个数据出现取值重复等高概率时,就说明它们之间存在一定的关系,并针对这些关系建立起一定的关联原则,这就是数据挖掘中的关联分析技术。分类在数据挖掘技术中是一种非常重要的任务,其可以充分利用原始数据,通过自动导出,对给定的数据进行推广描述,以便对未来数据进行描述,因此分类主要被用作预测。时序模式主要是指从海量的时间序列数据中,对人们所不知的但有潜在价值的数据进行提取,以便对社会中的各个方面进行预测,并指导人们的行为。

2 电力营销系统

电力营销系统主要是以用电管理、电能计量、营业计费、线损管理等项目为核心,在各个业务项目模块之上,提供一定的服务模块以及分析模块。前者主要包块电网服务、互联网服务以及客户服务中心等,其工作中心在于向人们提供更高质量的服务。后者主要是通过对历史数据的分析、计算等,为项目决策提供参考依据,其工作主要侧重于向电力企业提供及时准确的参考依据,比如提供电力系统诊断的相关数据、安全动态评估、异常情况数据分析等。电力营销系统的数据主要呈现出数据多、种类繁杂、要求高等特点。

3 数据挖掘技术在电力营销系统中的应用

3.1 聚类技术在电力营销系统中的应用

聚类技术在电力营销系统中的应用主要体现在对不良数据进行修正、对负荷进行预测、对变压器故障进行判别、对电力用户进行分类、对用户信用进行评价等。对不良数据进行分析主要是建立在传统的聚类算法基础之上,对聚类过程中所应用到的基本参数进行分析,并对其中的相关负荷特征曲线进行提取,对不良数据进行修整。对用户的用电数据通过选取最佳的角力方法,得出具有代表性的负荷曲线,使电力企业能够对用户的用电模式有所了解,并制定出相应购电合同,从而增加电力企业的经济效益。电力企业一般根据用户所提出的不同需求,采用聚类分析的方式,将用户分成不同的组别,并根据分组结果对不同组别之间存在的差异进行分析,并针对分析结果制定出不同的营销策略,在很大程度上促进了电力企业在经济效益方面的提高。对用户信用进行评价主要是通过建立基于聚类分析法的用户信用评价算法,对不同的用户组别制定不同的量化依据,从而实现对用户信用等级评定。

3.2 分类技术在电力营销系统中的应用

在电力营销系统中,对其进行中长期预测,除了利用传统的方法之外,也可以对其采用专家系统、模糊理论等方式。而神经网络方法在一定程度上得到了人们的高度认可,其主要基于竞争分类之上,对预测准确度的提高有明显的效果。决策树技术的诞生在一定程度上也大大提高了数据挖掘技术在电力营销系统的应用效果。决策树的应用不仅可以有效提高短期负荷预算的准确度,其对电力营销过程中出现的窃电行为也有了高效、及时的判别。通过建立分类树,形成了内容庞大、条理清晰的数据库,在对SCADA系统的不良数据进行评估的同时,减小了数据库建立的规模,并大大提高了其预算的准确性及计算的速度。同时,分类技术在客户关系管理工作中也得到了广泛应用。

3.3 空间挖掘技术在电力营销系统中的应用

在很大程度上,电力营销人员反应的快慢、判断的准确度、决策的科学性对电力企业的长远发展有着至关重要的作用。特别是随着电力体制改革的不断深入,电力营销市场化,决策的科学性、正确性显得更加重要和关键。将电力运行系统中的相关数据、负荷分布位置的具体数据以及实时发生变化的相关数据等信息融合为一体,通过空间挖掘技术,对信息进行一定处理,保证电力营销系统实现设备跟踪、模拟停电、故障判定、损失评估等功能。同时还可以利用空间分布规则、特征规则、聚类规则、区分规则等,得到不同类别或是相同类别的负荷分布情况。除此之前,空间挖掘技术还能广泛地应用于负荷管理、抄表收费等服务项目,并能根据线路或变压器的实际负荷情况,根据用电客户的实际地理位置等制定出针对性强的负荷控制措施,从而实现负荷的合理应用,对高峰、低谷时期的负荷情况采取错峰、填谷、调峰等方式实施管理。

3.4 时序模式在电力营销系统中的应用

时序模式在电力营销系统中用于进行短期符合预算是一种最为经典,同时也是应用最广、最系统的一种方法。一般在实际运用中,更多是将时序模式与神经网络结合,共同对电力营销系统的相关数据进行分析。随着科学技术的不断发展,人们针对数据挖掘技术,提出了一种基于时间窗的新的时序挖掘算法,该种技术主要被广泛地用作对警报进行智能处理,以便对电力营销系统中出现的故障进行更加准确的定位与判断,有利于电力营销服务管理水平的大力提高,为广大电力用户提供更加优质的电力资源。

4 结束语

总之,数据挖掘技术在电力系统中有着非常重要的应用价值。随着社会经济的不断发展,单一的数据挖掘技术已经不能很好地适应当前社会的需求,对此应在实际应用过程中,对其进行不断改进与创新,促使数据挖掘技术在电力营销系统中得到更加广泛的应用,从而促进电力企业经济效益的稳步提高。

参考文献:

[1]朱莉.数据仓库与数据挖掘技术在电力营销系统中的研究与应用[J].东北大学,2003(18).

[2]朱洁.数据挖掘技术在电力营销系统线损计算中的应用研究[J].兰州理工大学,2011(11).