时间:2023-03-22 17:47:33
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘技术论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。
一、客户关系管理(CRM)
CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM)
数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用
1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2)在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3)对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。
(4)对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
(5)交叉销售和增量销售
交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。
四、客户关系管理应用数据挖掘的步骤
1.需求分析
只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。
2.建立数据库
这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。
3.选择合适的数据挖掘工具
如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。
4.建立模型
建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。
5.模型评估
为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。
6.部署和应用
将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。
参考文献:
[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002
[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008
[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)
当今,国内外电子商务类网站日益兴起。许多电子商务类网站都提供了一定程度的个性化服务,比如提供商品推荐服务。而构成这些个性化服务的基础就是数据挖掘技术。
一、数据挖掘分析
1.数据挖掘的定义。数据挖掘(datamining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。包括存储和处理数据,选择处理大数据集的算法、解释结果、使结果可视化。
2.数据挖掘的方法。从商业的角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘的方法大致可以分成4类:关联分析、概括分析、分类分析、聚类分析。(1)关联分析:分析表面上不相关数据之间的内在联系,揭示各事之间的依赖性和相关性,分析范围包括简单关联、因果关联等。在电子商务中,用数据挖掘找到隐藏的关联规则,当客户浏览、搜索关联规则中的某种商品时,就可以在页面中以推荐商品的形式显示关联规则中的其它商品。在进货计划和促销计划中,也可以将这个因素考虑进去。(2)概括分析:即提取数据库中指定的数据集合的一般特性,找出遍性规律。(3)分类分析:设置分类规则,把各个事务或实体按照性质和特征不同进行归类,把数据层次化和规整化,从而建立数据的分类模型。(4)聚类分析:通过分析和归纳实体之间的特征差异,选出具相识特征的实体聚合成为一个类,并用某种规则来描述该类的相同属性,形成一种聚类规则,实际上,它是与分类分析法互逆的过程。
3.数据挖掘的过程。该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。(1)确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。(2)数据准备。数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(3)数据挖掘:对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。(4)结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。(5)知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
二、数据挖掘与电子商务的关系
在电子商务企业中,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:(1)可以发现客户和访问者的爱好、生活模式。(2)可以争取新顾客,怎样使产品适销对路、怎样给产品定价、怎样吸引单个客户、怎样优化Web网站。(3)可以用相应的信息确定顾客的消费周期,针对不同的产品制定相应的营销策略。(4)可以确定客户细分,为每一个客户的独特需求设计“量身定制”的产品。三、数据挖掘技术在电子商务中的应用
1.面向电子商务的数据挖掘系统设计。本系统电子商务平台采用基于三层体系结构构建,服务器端采用先进的J2EE平台构架,有完整的体系框架组成,具有很好的可扩展性、互联性和可维护性。因此面向电子商务的数据挖掘系统由数据库服务器、应用服务器和客户端三层组成,整个体系结构是以J2EE企业级的构建技术为基础。对数据挖掘过程中产生的数据,采用独立的数据挖掘库表存放,这样既不影响也不依赖数据挖掘的数据源。应用服务器完成所有的数据挖掘运算,通过接受客户端的设置,完成所有对数据进行探索、转换、挖掘的工作。数据挖掘系统的每个功能模块都以EJB的形式进行封装,以实现分布式计算和负载平衡等分布式计算的要求,把具有繁重计算任务的模块和用户交互模块分开。客户端要负责数据挖掘流程的创建工作、所有功能模块参数的设定以及各种可视化结果的显示。用户可以根据自己的要求任意创建各种形式的挖掘流程,同时按照需要执行某部分流程,获取相应的可视化分析结果,其系统体系结构如图所示。
面向电子商务的数据挖掘系统体系结构图
2.面向电子商务的数据挖掘系统功能设计。面向电子商务的数据挖掘系统主要以下几大功能模块:(1)用户信息分析。运用分类和聚类挖掘方法对用户的信息分析,可以得到用户的些特征。对用户分类相当于对具有某些公共属性的用户群体建立了概要特征描述,这些特征可以用来对新增的用户进行分类,可以发现未来的潜在用户并开展有针对性的商务活动,如自动给一类特定的用户发送销售邮件,当属于同一类的用户再次访问站点时为其动态地改变站点的内容等。通过这些举措使商务活动能够在一定程度上满足用户的要求,实现目标营销。(2)商品信息分析。运用关联规则挖掘发现商品访问中所有关联和相联系的规则,可以从交易事务数据库中发现商品间的相互联系。这对电子商务公司组织站点网页结构、开展有效的营销策略非常有帮助。(3)物流信息分析。采用神经网络预测技术,根据各物流配送点接到的网站用户订单来预测其库存数量。预测信息可以给物流配送中心以参考,用来合理地确定各配送点仓库的库存量,使各配送点的补货能更加合理有序,降低物流成本,节约库存费用。
四、结束语
数据挖掘是一个新兴的领域,具有广阔应用前景,目前,电子商务在我国正处于快速发展和应用阶段,利用数据挖掘技术,能够强化对客户的服务、促进市场最优化、加速资金周转、实现企业的创新发展。电子商务平台上的数据挖掘技术有待人们去进行更深入的研究工作,这将不断的推动数据挖掘技术的深入发展和广泛应用,创造出更多的社会和经济价值。
参考文献:
[1]张云涛龚铃:数据挖掘原理与技术.北京,电子工业出版社,2004年1月
煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。
1.2安全管理模式传统
与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。
1.3安全信息管理体制不健全
安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。
2空间数据挖掘技术
数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据挖掘技术是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据挖掘技术的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘技术和知识发展的新地学数据分析理念与依据。
3煤矿安全管理水平的提升
3.1建设评价指标体制库
评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。
3.2构建专业的分析模型库
依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。
3.3构建以GIS空间分析为基础的方法库
GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。
3.4决策支持体制与煤矿管理水平评价指标
体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。
Web使用的挖掘一般情况下指的是对web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。
二、Web数据挖掘技术的工作流程
Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成www资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。
三、Web数据挖掘技术在高校数字图书馆中的应用
1、为开发网络信息资源提供了工具
数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。
2、为以用户为中心的服务提供帮助
通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。
3、web数据挖掘技术在图书馆采访工作中的应用
在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。
4、使用web数据挖掘技术提供个性化服务
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。
1)网络教学:包含异步学习模式与同步学习模式,泛指教师与学生都不用到传统的教室去上课,只要上网到网络教室中就可以进行许多教与学的活动。
2)远程教室:在各大专院校设立有许多远程教学同步视频教室。在该教室中建置了许多视频影音的设备,用来进行课程的实时转播工作。
3)网络同步教室:网络教学活动可以区分为异步与同步的教学活动,其区别在于是否实时。教师和同学在约定的同一时间,通过Inter-net网络进行在线实时的课程教授的教学环境,就可称之为网络同步教室。在网络同步教室中提供许多教学相关的辅助工具及互动相关的功能,以协助课程的进行。研究者希望通过数据挖掘的方法,来分析教师对于网络教学环境的观念,并提供教师在网络同步教室中类似传统教学环境的教学模式,以增加教师采用网络教学的意愿。本研究将先就“传统教学”、“远程教学”及“网络同步教学”的环境因素、教学方式、师生互动、学习成效等构面进行分析比较,来区分出这三种教学环境的优缺点及差异,并将依据目前教师在传统教学中的教学模式,实际应用在网络同步教室中来施行,让参与网络教学的教师可以了解如何运用网络同步教室来经营一门高质量的课程。首先将推行计算机网络教学遇到的问题,大致上区分成以下几个主要因素:
1)数字教材的制作或取得不易:学校对于数字教材的取得感到忧心,大多要求学校教师自行制作,对教师而言会增加额外的负担,导致教师对网络教学产生抗拒的心理。
2)教师对网络教学的成效产生质疑:教师普遍认为网络教学环境的教学效果没有办法像传统教学环境一样,可以和学生有高度的互动,不认为网络学习会比较有教学成效。
3)教师对参与网络教学的意愿低落:教师必须花费许多时间和学生互动,比往常还需要花费更多的时间去回答学生的问题、关心学生的学习状况,教师普遍认为网络学习对教师来说不会比较轻松。将此主要因素做成调查问卷,对数据进行聚类分析,则可以找到主要的影响因素,获得教师对于网络教学环境的态度,进而选择更加有效的授课形式,以此提供类似传统教学环境的教学模式,以提高教师采用网络教学的意愿。
2计算机动态取证技术
2.1采集有效数据
数据采集是动态取证重要的环节之一,只有做好数据采集工作,才能保证取证的质量以及完整性,在当前网络患者下,为了保证数据库中数据的充足性,需要提高数据采集的效率。在网络数据获取时,需要注意三点内容,首先,要保证数据的完整性,在采集的过程中,不能对数据进行修改或者破坏;其次,数据采集系统不能受到网络流量的影响;最后,数据采集获取的过程中,要具有较高的透明度,要保证被检测的网络不会受到外界因素的影响。
2.2数据存储
动态取证技术是公安部门应用比较多的技术,与NIDS技术相比,其不但可以对特殊文字以及词汇进行摘录,还可以对数据进行完整性记录,通过对数据模块的分析,可以追查到相关内容。利用动态取证技术,可以将需要的报文完整的保存起来,还可以对网络流量进行详细的记录,可以确保系统不会丢失文件,另外,当系统遭到黑客的入侵或者破坏后,动态取证技术还可以进行实时恢复,所以,这项技术具有一定防御以及反击作用。在应用动态取证技术时,需要保证系统存储空间的容量。
2.3数据分析
数据分析是动态取证中一项关键的环节,通过分析可以辨识不良入侵,是保证数据库安全的有效措施。在网络还原或者重建的过程中,利用数据分析技术还可以将损失降到最低。网络数据分析有两种方式,一种是基本分析,另一种是深入分析,如果取证问题比较简单,则利用基本分析方法就可以解决,但是如果取证比较复杂,并且要求比较高,则必须进行深入数据分析。深入分析需要对重组网络数据以及来源进行分析,还需要对数据间的关联性进行分析,通过数据分析还可以还原与模拟网络事件现场。动态取证技术也具有一定缺点,在取证的过程中存在漏报或者误报的情况。
3数据挖掘技术在动态取证系统中的应用
基于数据挖掘的计算机动态取证技术,与传统的动态取证技术相比,有着较大的优势,其可以对海量收集的数据进行实时取证分析,而且准确性比较高,其具有关联分析的特点,可以对与案件有关的信息或者电子证据进行快速的查找。这一过程需要利用数据分析模块,在对数据进行分析时,需要对犯罪证据进行筛选,动态分析最大的优点是可以对实时数据进行获取,在黑客对原始数据进行篡改或者删除时,这项技术可以对这些犯罪过程详细的记录下来。基于数据挖掘的动态取证技术具有高效性以及可扩展性,利用数据挖掘技术,可以对海量的、不完全或者模糊的数据进行潜在价值的分析。基于数据挖掘的计算机动态取证技术主要有:
3.1关联分析
关联分析是基于数据挖掘的计算机动态取证技术一大特征,利用关联规则,可以对相关数据进行深层挖掘,通过关联分析可以掌握犯罪行为的关联性特征,这些特征有些已经经过了预处理,所以,相关工作这需要做好审查以及审计工作,要通过相关规则对用户犯罪特征以及规律进行总结。为了保证数据动态取证的安全性,需要在系统中设置加密软件,还要将入侵信息反馈到检测系统中,这样可以提高数据分析的效率,还可以实现实时动态取证。
3.2分类分析
分类分析就是通过对分析示例数据库中的相关数据进行分析,准确描述出每个类别的特征,建立分析模型,挖掘出分类的规则,将其它数据库中的记录传送到分类规则中,在动态取证系统的数据采集模块收集了用户或程序足够数据后,在取证的数据分析阶段,应用分类的相关规则来判断用户或程序是否非法。应用分类样品数据来训练数据分析器的学习,还预测一些未知的数据是否具有犯罪证据。
随着现代商业经济和信息技术的发展,商业信息的增长速度呈现指数上升,积累了海量的、以不同形式存储的商业数据资料,原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要,这时出现数据挖掘技术,它能够去粗存精、去伪存真,从海量的商业信息中提取知识和有用信息的技术。现代信息技术处理商业信息经过一定的发展,逐步形成现在的商业数据挖掘技术。
1.数据挖掘方法在商业信息中应用的规则
数据挖掘技术在商业中的应用主要基于AI、机器学习、统计学等技术,高度自动化地分析商业原始数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助商业决策者调整市场策略,减少风险,做出正确的决策,体现一种决策支持过程。
1.1商业信息泛化、简约和特征提取规则。商业信息泛化是为了商业数据更好的理解和掌握,将其具体一般的数据信息抽象到较高层次的过程;商业信息简约是为了采用一定的手段对信息进行描述;商业信息特征是找出这些信息的共同特征,寻找信息的通用性特征式。
1.2商业信息分类技术规则。商业信息分类是按照一组商业信息对象的特征给出信息对象划分的过程。其目的是学会一个分类函数或分类模型,该模型能把数据库的数据信息项映射到给定类别中的某一个。
1.3商业信息的聚类规则。聚类规则是识别一组信息对象的内在规则,从而将对象分组,构成相似的对象类,从而找出数据信息的分布规律,并进一步去发现隐含在一组混杂的数据信息集里的分类规则。聚类是把一组个体按照相似性归类,即"物以类聚"。使属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大。
1.4商业信息的关联规则。关联规则的商业数据挖掘已经从单一概念层次的关联规则发展到多概念层次的关联规则的发现。关联规则是如下的一种规则:"我们在研究大型商场的顾客在购买上衣和裤子的时候,发现其中在这些顾客中有10%的顾客同时买了帽子(上衣+裤子+帽子),这就形成简单的关联规则。除了具有上述关联规律,还有时间或序列上的规律,在不同的时间(春夏秋冬)所购的衣服、裤子以及帽子是不相同的,并且不同层次或者不同年龄的人所购商品又有一定的规律性。
2.数据挖掘技术在商业信息中的应用
数据挖掘技术是目前在商业信息处理中应用的比较多的一项技术,为了在商业领域中对海量数据库和大量复杂信息中提取有价值的知识,进一步提高信息的利用率,对公司及时制定相应的对策有非常重要的意义,在这里,讨论几个主要商业行业中的商业信息处理。
2.1数据挖掘技术在电子商务网站数据中的应用
随着Web技术的发展,电子商务网站正在成为现在商家的必争之地。如何让电子商务网站有效益要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
2.2数据挖掘技术可以用在金融领域的应用
金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。
数据挖掘在银行信息中的应用。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估,利用数据挖掘工具,可以根据客户的消费模式预测何时为客户提供何种产品。银行如何让一家新开的银行网点实现快速赢利呢?银行结合了GPS推理信息系统和商业智能应用系统,在银行的客户信息中,详细记录有客户的常驻地,并且,当银行客户到该银行网点办理业务时,银行商业智能系统将自动记录客户的操作信息,以及银行网点地址信息。经过大量的记录,客户的常驻地到银行网点的行动路线,将被通过数据分析而得出。大量的客户路线得出后,我们可能会发现,某个地区进行银行业务操作的客户特别多,但他们附近没有银行网点,而是要到离他们较远的地方去办理,于是银行就决定在这个地区开办一个银行网点。
数据挖掘在证券信息中的应用。上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资者带来持续的回报。而财务报告包含了大量描述公司经营状况的数据。这些数据应能为投资者提供关于公司未来盈利能力的信息。对于中长期投资者而言,需要做的就是利用这些信息挖掘出未来能够具有较高盈利水平同时又具有较好的成长性公司。采用数据挖掘技术来发掘这些财务报告中是否包含关于公司未来盈利情况的信息,获得较精确的预测效果,选出的投资组合能否获得超额收益,这对于投资者来说是非常重要的。
2.3数据挖掘技术在企业市场营销中的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是"消费者过去的行为是其今后消费倾向的最好说明"。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。4数据挖掘技术在民用通信部门中的应用
引言
现代化的企业搜集了大量时态文本数据,但信息超载和无结构化,使得企业决策部门无法有效利用现存的信息,时态数据挖掘技术便应运而生。目前有关时态关联规则算法已较多,但是如果运用到时态文本关联规则的挖掘中则时间复杂度都太高。所以本文将对时态文本关联规则挖掘进行研究。
1.时态文本预处理
1.1时态文本处理
在挖掘时态文本关联规则之前,需要先对文本进行预处理,对英文而言需进行Stemming处理[5],中文的情况则不同,因为中文词和词之间没有固定的间隔,需进行分词处理。
对于本文研究的是医学病毒论文数据库,是一个英文数据库,文本预处理的具体内容如下:
①英文大写换小写(都以小写字母表示,方便文本识别);②删除空白记录;③将论文信息中的标题和摘要进行(可以提高关键词的比重,增加提取文本向量的精度);④处理时间DP列,只保留年份数字,方便提取有效时间;⑤对于记录太多的库,适当拆分表格(否则在程序处理时会内存溢出);⑥根据文本内容提取合适的停用词表,对文本内容进行去停用词处理。
1.2 时态文本表示
在对时态文本进行清理后,需将其进行表示。在文本处理时我们已提取论文的发表时间,所以将时间和文本分列处理,然后将文本单独表示。本文采用向量空间模型(VSM,Vector Space Model)进行表示[6]。
2.时态关联规则算法概述
以前的算法不能有效应用到时态文本数据库中,主要原因有:1)这些算法计算时时间复杂度仍太高。2)没有考虑每个独立文本项各自存在的有效时间;3)每个项目缺少一个合理的可以浮动的支持度数。所以本文根据时态事件模型及Apriori原则,本文在快速更新算法思想上产生新的算法:SPFM(Segment-Progressive-Filter-Miner)
该算法主要包括三步:1.数据库不断更新;2.对数据库按不同时间段进行划分;3.对每个时间段的事务集挖掘频繁项集。拆分后的数据库,每个阶段部分有不同的支持度阈值,我们按不同的支持度阈值进行计算来产生候选项集。
SPFM算法主要有三个特点:1)算法预处理时将文本数据转换成垂直数据格式,可大大提高程序效率;2)在挖掘时态数据库的频繁项集时,通过更新不同时间粒度的支持度数来确定频繁项集,并判断频繁项集在时间粒度上的连续性;3)如2)所述,时态数据库是和时间粒度有关的,那么从时态数据库挖掘出的关联规则也应该是和时间粒度有关的,即存在“有效时间”,本算法引入一种判断机制,使得发现的有效时间是由频繁项集本身决定的,最终我们获得的是一组浮动的“有效时间”。
3.实验测试
为了测试SPFM的算法性能,用Visual C++进行编程。对象为医学病毒论文数据库中1970~2010年间约50万条的记录,每条记录的属性包括fileno(论文标号)、TI(标题)、AB(摘要)、DP(发表时间)等。以“年”作为时间粒度,将数据库划分为40个阶段部分。minsup为0.5‰,minconf为35%,然后进行频繁项集的挖掘,并确定每个频繁项集的有效时间,依次循环直至2010年为止。
比如rous(含铁血黄素)和sarcoma(1979年、1981年、1983年),都是强关联规则,且COS判断值为0.8165>0.5,说明该规则有意义,这两者在1979~1983年是一个共同研究热点,它们之间有可能存在一些密切的联系,在医学上也可以深入研究。
通过对医学文本数据库的挖掘,我们挖掘出上百条时态文本关联规则,从这些规则当中我们能得到近40年学者们对病毒研究的规律以及病毒的发展规律,这些规律会是对以往病毒研究的较好总结,也会有助于更有效地治疗已产生的病毒。
在文本数据挖掘技术已经日渐成熟的背景下,把时态数据与文本挖掘联合起来,可将时态文本数据挖掘应用于医学、经营、管理等各个方面,通过对海量的时态文本数据进行关联分析,为管理者做决策提供参考数据;还能为新的经营模式提供目标和思路,减少盲目性,以获得更大利益。
4.结束语
本文提出了对医学病毒论文数据库中的时态文本如何进行预处理,需先将时间和文本分为不同的列,将文本表示为向量空间模型。然后确实频繁项集的有效时间,将文本数据转换成垂直数据格式,再通过新的算法挖掘频繁项集,最后对时态文进行强关联规则的挖掘。该实验是对时态文本进行预处理后再进行关联规则挖掘的,最后验证了该算法的有效性。
参考文献:
[1] 潘定.持续时态数据挖掘及其实现机制[M].北京:经济科学出版社,2008:36
作者简介:
企业管理中客户关系的管理必不可少,并且良好的管理有利于企业发展,有利于企业获取更大的财富,有利于企业实现自己的价值,所以保障对企业客户关系的管理。数据挖掘技术就是一个可以帮助企业对客户关系进行有效的管理的工具。
一、数据挖掘和客户关系管理含义
数据挖掘技术(Data Mining可以简称为DM),简单来说,就是一种把隐藏在大型数据库或者数据仓库中所需要的有用信息提取出来的新技术,这是一个对数据库进行研究的非常有价值的领域。数据挖掘技术可以帮助用户从数据库中准确的提取出有用的商业信息,为用户在进行决策时提供重要的支持。
客户关系管理(Customer Relationship Management可以简称为CRM),也有人称之为“顾客关系管理”,关于客户关系管理的定义,目前有两种说法:一,最早的Gartner Group定义为一种商业策略,就是把客户进行分类,并依据分类情况来对企业的资源进行有效的组织,进而企业的业务流程实施以及经营活动都要以客户为核心来进行,以此来提高企业的盈利能力以及客户满意度,取得最大利润;二、是由CRMguru.com给出的定义,客户关系管理就是一个在企业的营销、销售以及服务的业务范围内,把企业现有的客户以及潜在客户,还有业务伙伴多渠道进行管理的过程,或者说技术。
二、数据挖掘在客户关系管理中的应用
随着社会经济的不断发展,市场竞争力也在逐步的增大,商家想要获得最好的利益,就必须对市场的变化迅速的做出反应,能够引起市场变化的重要因素就是客户需求的变化,也就是说,企业必须集中注意力,观察客户需求的每一变化,并把这些资料收集在一起,作为企业发展的宝贵资源进行管理。在企业管理客户信息的过程中,就需要应用到了数据挖掘技术。
数据挖掘技术在客户关系管理中的应用过程中,主要方法有:神经网络法、遗传算法、决策树法、粗糙决算法以及可视化技术、K—最近邻技术等,每个公司的客户关系不同、需求也不同,所以要用到的方法也不同。
数据挖掘技术主要应用于客户关系管理中的这几个方面:(1)挖掘新客户,数据挖掘技术可以对现有的客户信息和市场环境进行统计总结以及归纳,准确的确定潜在客户以及市场目标。因为数据挖掘技术具有统计、聚类和关联的作用,比如说,数据挖掘技术在数据库中发现了这样一个信息“某客户在购买A商品之后,过了一段时间又购买了B商品,最后还购买了C商品”那么数据挖掘技术就会通过次序关联,把这个信息形成“A—B—C”的行为模式。(2)可以保持优质客户。现在社会竞争相当激烈,企业客户更是企业发展的重要因素,优质客户对每个企业来说就更加的重要。数据挖掘技术可以对数据库中的流失客户信息进行分析,并且对流失客户的特征进行准确的描述,然后利用关联、近邻的方式对整个数据库中的消费客户信息进行分析,分析出容易流失的客户,随后就需要采取相应的措施来减少这些客户的流失,尤其是那些可能流失的优质客户,更要采取有力的措施来进行挽留。(3)可以提升客户价值。目前提升现有客户的价值的方式有两个:一是提供特色服务或者产品;二是销售新产品或者服务。想要准确的提升客户价值,就需要数据挖掘技术的帮助了,他可以把之前的客户信息研究分析,并依据新产品或者服务的特征,发现和客户的已购买产品之间的关联,因而准确的找到具有最大购买趋势的客户。
三、加强客户关系管理中数据挖掘的意义
应用数据挖掘技术对客户关系进行管理,可以有效的提高企业的核心竞争力,现代社会的激烈竞争,也就是对客户的竞争,数据挖掘技术对企业的客户关系进行详细的分析,并为企业提供有价值的商业信息,为企业的重大决策提供了重要的参考依据,进而有力的提高了企业的核心竞争力;可以有力的增强企业的执行力,利用信息技术对客户关系进行管理,降低成本,并简化执行任务,有效的实现了资源共享,大力的提高了企业的自动化水平,企业职工的执行能力也进一步得到了提高,也就是增强了企业的执行力[3];可以为企业的下一步战略发展提供帮助,数据挖掘技术对现今的市场环境进行分析,可以预测到每个业务的发展状态,以及每个业务与发生过的商业行为之间的关系,有了这些信息,可以准确的制定企业未来的发展战略,并且可以制定与市场环境相适应的营销策略。
综上所述,目前数据挖掘技术是企业进行客户关系管理的最有效的工具,准确的掌握了客户信息,就是准确的把握了市场需求,可以为企业制定完全适应于市场的发展方向。数据挖掘技术的关键作用就是找出潜在客户,保留忠诚客户,并利用企业有限的资源,对这些客户提供最好的服务,促进企业的不断发展。
参考文献: