时间:2023-03-14 15:21:21
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘总结范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
一 、数据挖掘
随着数据库技术的广泛使用,以及计算技术和计算机性能与网络的迅速发展,人们面临着一个困难的问题,即如何从海量的数据中提取出有价值的信息。查询功能远不能满足人们的需要,数据挖掘应运而生。有人将数据挖掘定义为一个从数据及数据库中抽取隐含的,先前未知的并有潜在价值的信息的过程。但有人认为数据挖掘,即数据库中的知识发现,是从大数据集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库研究的新领域,所挖掘的知识能够用于信息、管理、查询处理、决策支持和过程控制等等。
数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要
课题。
数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。
二、数据挖掘的主要任务
(一)数据总结
数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
(二)分类
分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
(三)关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。
(四)聚类
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
三、数据挖据的应用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向:
(一)在金融数据分析中的应用
多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。
(二)在电力业的应用
在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。
(三)在零售业中的应用
零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。
(四)在医学上的应用
近年来,生物医学研究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。在人类基因研究领域具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。基因序列的相关分析,遗传研究中的路径分析等。近期DNA分析的研究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。
(五)在高校和科研单位以及其他领域的应用
主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。
参考文献
一、旅游业数据挖掘国内外研究现状
随着我国的旅游业的迅猛发展,旅游产业正迈向国际化的轨道,传统旅游业积累的海量数据,没有被有效利用,资源被极大浪费。将数据挖掘引入到旅游产业是大势所趋。
当前数据挖掘在旅游信息化建设中的应用与研究情况主要集中在高校理论界的研究, 大多数研究仅仅是学术研究,真正运用到旅游行业的文章多是从某个具体的方面出发,针对个别应用进行数据挖掘的融合。笔者主要研究决策树方法在旅游信息化建设中的应用。目前,决策树算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z统计算法、并行决策树算法和SPRINT算法等。不同算法在执行效率、输出结果、可扩容性、可理解性、预测的准确性等方面各不相同。总的来说,这么多决策树算法各有优缺点,真正将数据挖掘运用到整个旅游信息化建设中还有很多问题需要解决。
二、旅游业数据挖掘算法选择
数据挖掘中常用的基本分类算法有决策树、贝叶斯、基于规则的算法等等。
其中,决策树是目前主流的分类技术,己经成功的应用于更多行业的数据分析。在关联规则挖掘研究中,最重要的是Apriori算法,这个算法后来成为绝大多数关联规则分类的基础。聚类算法也是数据挖掘技术中极为重要的组成部分。与分类技术不同的是,聚类不要求对数据进行事先标定,就数据挖掘功能而言,聚类能够可以针对数据的相异度来分析评估数据,可以作为其他对发现的簇运行的数据挖掘算法的预处理步骤。
各种算法分类模型建立有所不同,但原理是大致相同的。笔者考虑决策树算法结构简单,便于理解,且很擅长处理非数值型数据,建模效率高,分类速度快,特别适合大规模的数据处理的优点,结合旅游产业数据特点,故作重点分析。
三、旅游业数据挖掘系统需求分析
旅游业数据挖掘系统的基本特点如下:统计旅游兴趣;购物消费趋向;推荐其感兴趣的旅游景点;在后台管理中,通过决策树算法对游客数量、平均年龄、景点收费、游客来自地区等进行分析总结,为旅游消费者和旅游管理者提供服务:为消费者提供吃住行购娱乐天气各方面信息查询、机票、车船票、酒店、景区门票、餐饮等方面的预定与现金支付、第三方支付、消费者评价、在线咨询等方面的便利、快捷服务。为管理者提供推荐、游客管理、线路管理、景点管理、特色服务管理、机票管理、在线咨询管理、旅游客户关系管理等服务,提高整体服务效率和水平。
四、旅游业数据挖掘系统的实现
旅游业信息管理系统包括游客信息管理与游客信息分析两个子模块。根据系统日常运行出现的问题及时对系统进行维护,如添加或者删除某个模块功能,系统整体运行速度的更近等。系统运用数据库层、持久化层、业务逻辑层、表示层四层体系结构, 主要利用ID3算法达到旅游数据信息的快速、准确分类。考虑了游客与酒店之间的关系、游客与旅游路线之间的关系、游客与旅游景点之间的关系、游客与机票、车票之间的关系、管理员与游客之间的关系、逻辑结构设计。程序之间的独立性增加,易于扩展, 规范化得到保证的同时提高了系统的安全性。
详细功能设计包括:用户登录、用户查询、预定及支付、后台管理、旅游客户管理和数据分析等方面。本系统中主要运用Java语言就行逻辑上的处理。系统主要使用 Struts2和Hibernate这两个框架来进行整个系统的搭建。其中Struts2主要处理业务逻辑,而Hibernate主要是处理数据存储、查询等操作。系统采用Tomcat服务器。系统模块需要实现酒店推荐实现、景点推荐实现、天气预报实现、旅游线路实现、特产推荐、数据分析展现功能、报表数据获取、景区客流量变化分析实现等。需要进行后台信息管理等功能测试以及时间测试、数据测试等性能测试。
中图分类号:TP399 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02
数据挖掘技术是计算机领域和人工智能领域的关键技术。数据挖掘技术可以将大量的数据转换为有用的知识和信息,因此引起了信息产业界的广泛关注。近年来,在作为信息和知识的集散地和发源地的高校图书馆,数据挖掘技术的应用更为广泛。
1 数据挖掘概述
数据挖掘(Data Mining),就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[1]。作为数据库中的知识发现的一种先进技术,数据挖掘通过总结要查询的内容的模式,对其间存在的规律进行搜索,辅助决策者对当前数据及历史数据进行分析,发现其中隐藏的模式和关系,进而对未来可能发生的事情进行预测。因此,数据挖掘技术在高校图书馆中有着广泛的应用。
2 数据挖掘技术在高校图书馆的应用
2.1 提高图书馆的决策能力
由于数据挖掘技术能够从众多的数据中发现有用的知识和信息,因此被广泛应用在图书馆的管理中,领导通过对挖掘出的有用信息进行分析,可以提高决策的准确性和可行性。比如,通过数据挖掘技术可以对图书馆的图书借阅情况进行挖掘和分析,分析每类读者的借阅行为特征,发现借阅规律,为图书馆的管理提供可行的合理的建议[2]。数据挖掘技术可以将图书馆管理系统中的内部数据和外部数据结合起来进行分析,为领导提供灵活的、随时可用的决策信息。数据挖掘技术可以从历史数据中找出某种规律,发现某种潜在的模式,以此预测未来,提供决策信息[3]。
2.2 辅助图书馆的图书采购
此外,通过对数据挖掘技术的结果进行分析和总结,可以提供各种预测性信息和分析报告,可以科学合理的指导图书馆采购图书,从而降低图书采购人员的主观因素带来的影响,可以科学的、准确的和全面的提高决策的能力,提升决策的水平。数据挖掘技术应用于图书采购的过程包括原始数据的收集、预处理、数据变换、数据挖掘、结果分析和采购计划的制订五个步骤[4]。
1.原始数据的收集。这一过程是基础,可以为下面几个环节提供一定的数据源,提供的数据源可以用在后期的数据挖掘中。在实践应用中,这一环节主要收集图书馆办公自动化系统数据库里的相关业务数据,主要包括以下内容:①读者基本信息数据。比如读者的姓名、性别、所在院系、借阅证号等。②流通借阅数据。利用数据挖掘技术获得的这部分信息,可以反映图书馆的文献利用情况,通过分析、统计和总结这些数据,有助于掌握读者的需求和书刊的使用情况,进行提供一定的预测信息。③文献信息检索数据,这些数据的主要功能在于如实地向数据挖掘人员反馈用户的实际需求和借阅倾向,并挖掘读者需求数据。④图书馆所藏的图书数据:主要包括书的题名、作者、出版社、出版日期、索书号、馆藏位置、购入日期等数据。
2.原始数据的预处理。这一环节就是在数据挖掘前对一些有问题的数据进行处理,这些数据大多数是不完整的、不一致的或有噪声的,这些数据是图书馆自动化系统数据库数据中的一部分。在数据挖掘前处理这些问题数据是非常有必要的,可以从根本上提高数据挖掘的效率和所获知识的质量。
3.数据变换。这一过程就是对前面两个环节所获得的有效数据进行总结、分析、聚集和归纳,使数据更适合于挖掘,满足不同的数据挖掘的需求。
4.数据挖掘。数据挖掘过程的主要工作就是设计选择一种合理的算法,使当前的数据情况和挖掘的目标相匹配,使其一致,比如遗传算法等。通过分析读者基本信息数据和流通借阅数据之间的关联关系,某类读者和某类图书之间的关联度会更加清晰的被数据挖掘人员所理解。
5.结果分析和采购计划制订。一般情况下,数据挖掘所获得的结果并不是可视化的,需要通过一些工具比如可视化工具和知识表示技术对其评估和解释。通过数据挖掘,可以获得检索频率和借阅频次较高的图书信息。借助这些信息,可以对各类文献的利用率和需求状况进行科学合理的分析,从而辅助采购人员科学地筛选文献种类。
2.3 提升图书馆的信息服务水平
图书馆的信息服务一般是被动服务,也就是图书馆员定期向用户提供一些资料,比如课题资料、项目资料等;除此之外,图书馆员还要逐一解答用户的信息请求。由于当前的科技发展日新月异,知识更新速度快,而这种被动服务模式反应较慢, 不能满足现实发展的需要。数据挖掘技术的广泛应用,使图书馆由被动服务转为主动服务,使传统图书馆转变为主动性、智能型的信息服务机构。
3 数据挖掘技术对高校图书馆带来的挑战
(1)从异构数据源中挖掘信息。笔者认为,从异构数据源中挖掘信息也就是从多个不同的相关的数据源系统的集合中挖掘相关的信息并对其分析综合,从而产生有用的信息和知识。在当今的网络时代,信息技术日新月异,新技术层出不穷,这就要求图书馆的专业技术人员能够驾驭新兴技术,能够从被各种网络连接起来的具有不同语义的多种数据源构成的分布式异构数据库中挖掘相关信息。
(2)数据挖掘结果的不同形式表示。由于当前图书馆通过数据挖掘技术获得的数据具有不确定性,所以数据挖掘的结果会有多种类型,其表示形式也不同。图书馆的用户也许会要求挖掘出不同知识,这就需要图书馆工作人员从一个大规模的数据集中挖掘出不同的知识,并从不同的角度来审视,并以不同的形式表示挖掘的结果[5]。
(3)在不同的抽象层次上进行交互式挖掘。在数据挖掘之前,很难从一个大规模的数据库中预测出能挖掘出什么信息,因此,应该以一个搜索过程来处理复杂的数据挖掘查询,对于必要的中间结果务必保留,以供进一步挖掘使用。在挖掘过程中,用户通过不断地修改其查询请求,对挖掘目标进行动态调整,能使挖掘过程得到有效地推进。因此,系统需要对挖掘的中间结果以不同的角度进行观察,并提供用户观察数据的灵活性。
4 结语
数据挖掘技术在高校图书馆的应用范围很广,除了上述应用外,在学科管理、馆藏资源建设、信息咨询、图书馆的现代化建设与管理等方面都有广泛的应用。通过对高校图书馆各种数据、信息的挖掘,可以揭示隐藏在期间的各种重要关系,图书馆员应该学习这方面的新技术、新发展,为图书馆的发展做出更大的贡献。
参考文献:
[1]邱晓辉.知识发现与数据挖掘分析[J].情报探索,2011,(1).
[2]张炜,洪霞.基于读者利用挖掘的图书馆决策与应用分析[J].现代情报,2009,29(7).
0引言
近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。
1电子商务专业开设数据挖掘课程的必要性
1.1行业发展的必然要求
进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。
1.2专业人才培养的迫切需求
电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。
2电子商务专业数据挖掘课程教学思路设计
数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。
3电子商务专业数据挖掘课程教学内容设计
数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。
3.1理论教学设计
针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。
3.2实验教学设计
数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。
4结论
大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。
参考文献
[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).
[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).
[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.
[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).
中图分类号:G4
文献标识码:A
doi:10.19311/ki.1672-3198.2016.29.119
随着高校教学信息化的不断进步,教学管理过程中积累了大量的数据。但这些数据只是简单的业务统计,并未进行整理和分析。教学评价是教学质量监控体系的重要内容之一,如何把握其内涵以及最终的目的,是教学实践过程中的难点之一。充分应用数据挖掘技术能够对教学评价过程中的大量数据进行加工处理,从而为教学管理人员提供正确的决策,促进教学质量的提升。教学评价的科学性对于教学质量的提高具有重要意义,因此利用数据挖掘技术对教学评价的数据进行分析,能够有效提高高职院校的教学质量。
1 高职院校教学评价现状
高职院校教学评价主要是教务处对每个学期教师的教学质量进行评估,一方面教务处将评价表发放给学生或是网络评价,学生根据教学质量评价表中的内容给教师评分;另一方面教学督导和同行听课后给出相应的评价,最终形成教师的教学评价最后得分。教务处将教师的得分进行排名,并确定考核的等级。这种传统的教学评价对于教学质量的提高具有一定的作用,但是仍然存在诸多弊端,影响评价的准确性。近年来高职院校越来越重视对教学的评价,但教学评价缺乏一定的科学性。
1.1 对教学评价的认识模糊
近年来,高职院校虽然越来越重视对教学的评价,但是对教学评价的意义、教学评价在教学管理中的作用认识仍比较模糊。当前部分高职院校的教学评价还停留在初级阶段,没有意识到科学的教学评价在教学管理中的重要性,因此教学评价指标的科学性有待进一步完善。
1.2 教学评价理论薄弱
很多教学管理者对教学评价的理论知识比较薄弱,同时高职院校与专业的研究机构缺乏足够的合作,致使教学评价理论缺乏系统性,教学评价理论难以发挥应有的作用。很多高职院校教学评价工作人员并未接受过专业的评价理论培训,导致教学评价只是停留在表面,难以向深层次推进。
1.3 教学评价手段比较落后
高职院校目前采用的教学评价手段比较单一,评价技术相对落后。虽然很多院校开始采用模糊数学的方法进行评价,也取得了长足的进步,但是教学评价还是沿用现成的技术,并没有根据自身的特点进行创新和改进。
2 数据挖掘的分类与算法
2.1 数据挖掘技术的分类
2.1.1 根据任务分类
根据数据挖掘技术的任务进行分类,主要包括分类模型数据挖掘、总结、聚类、关联规则、序列发现以及依赖模型和异常发现等。
2.1.2 根据方法分类
根据数据挖掘技术的方法进行分类,主要分为分类算法、关联规则算法、最近距离算法和支撑向量机算法。
决策树分类法是应用最为广泛的算法,采用自上而下的归纳方法来总结数据规律,决策树的数据总结清晰明了,并且每个节点都使用信息增益度量来选择测试属性。简单讲,这种方法就是以树形结构来体现大数据的特点和挖掘结果。决策树具有多种算法,较早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。决策树算法将数据有原则的进行分类,剔除无用或者用处不大的信息,从而实现大数据整理的高效性,在预测模型中应用广泛。所谓关联规则算法是通过数据之间的关联性建立一张关系网,从而找到解决某一问题的重要数据和条件,也就是通过对某种现象的检测来获得结果。关联规则算法使大数据清晰化,能够显示有用结果,减少统计时间。同时,该方法支持间接的数据挖掘和对变长数据进行处理,它计算的消耗量是可以预见的。最近距离法(KNN)的原理是以空间中的某个向量为样本,与其相邻的空间内与其相似的向量的统计就可以用相同的方法来统一。该方法的优势在于避免了其它方法的样本不平衡状态。由于该方法主要是依靠周边邻近的样本,样本数量有限,不能通过由判别类域的方法来确定类别,所以常用于样本之间重叠或交叉较多的空间。支撑向量法是建立在统计学理论的基础上的,靠机器来完成,是现代智能化统计的雏形。其原理在于将给定的有限的数理训练样本进行准确无误的折衷,从而提高的推广能力。
2.2 数据挖掘的过程
数据挖掘其实就是不断的反馈,其重要包括数据准备阶段、数据挖掘阶段以及评估和表示阶段。
2.2.1 数据准备阶段
数据挖掘技术应用的前提是准备数据,教师教学质量评价的所有数据均来自于系统数据库,所需数据主要有学生评价数据、同行评价数据、教师自评数据和专家评价数据等,这些数据的获取可以直接提取数据库表的内容。另外,还要综合调查问卷的数据。数据准备完成后,需要对全部数据进行预处理,使其满足数据挖掘格式。
2.2.2 数据挖掘阶段
依据数据的具体性质,选择合适的处理技术,常用的技术有聚类分析、归纳技术、关联技术以及神经元网络等技术,常用的算法有BP算法、ID3算法等。然后使用选择的技术和算法对数据进行挖掘。
2.2.3 评估和表示阶段
将教学评价的原始数据,利用数据挖掘技术转换为更加容易理解、关系明确的形式,采用统计学方法评价数据分析的结果,进而获得最佳的模式,同时还要预测可能发生的多种情况,为决策者提供多个方案。
3 数据挖掘技术在高职院校教学评价中的应用
教学评价的任务就是通过科学的手段,构建数据挖掘的模型,并将模型应用到高职院校的教学管理中。教学评价模型要尽量降低人为因素的干扰,重新调整教学评价中的属性权重。决策树算法在商业领域应用范围较广,并且成效明显,但是目前在教学评价中的应用还比较少,我们主要对决策树算法的应用进行分析,构建决策树模型,将其具体应用到高职院校的教学评价中。决策树模型能够在海量的数据中分析出可能影响学生、同行、专家评价结果的重要因素,能够建立教师的教学行为和教学质量之间的关系,进而发现相应的规律,为以后的教学评价服务。
3.1 数据挖掘技术在教学业绩评价中的应用
高职院校对于教学质量的评价一直缺乏科学的评价方法,因此教学评价的结果缺乏合理性,教学评价的效果较差。数据挖掘技术的应用,能够构建科学的、合理的教学质量评价体系,并由专门的部门负责测评,这样教师教学质量的评定就有了准确性,进而可以将教学等级作为评价的硬性指标,教师的晋级就有了理论依据。我们将其具体的应用分析如下:
(1)在成绩方面,多数高职院校是以期末成绩和平时成绩来评价学生,奖励结果多以奖学金的形式出现。采用传统的方式进行评价,只能单方面的靠成绩的数字来评价学生,而应用数据挖掘技术可以挖掘成绩背后的影响因素,实现对比分析和全面分析。从而对学生的学习成绩做出正确的评价,并且在教学环节中采用必要对策。(2)在考试试题的出题中,数据挖掘技术能够剖析学生的特点,从而针对性的出题,帮助学生发现学习中存在的问题。(3)教学评价。这是我们研究的重点,在这一过程中,教学评价源于教师,但是评价对象却是学生。在传统的评价中,我们往往忽视了对学生这一主体的作用,使用数据挖掘技术之后,评价的主体为学生,结合多种因素进行评价,从而根据学生的需求进行教学方法与课程设置的改革。使学生的学习过程循序渐进,更容易进入角色,提高学生学习的自信心。对影响学生的学习因素每个学期都要进行分析,利用管理系统并结合数据挖掘技术,就能更自如地完成教学改革,促进教学质量的提高。
3.2 数据挖掘技术在教学诊断中的应用
教学评价能够使教师明确自身教学目标的合理性,教学方法和教学手段选择是否科学合理,教学内容的重点和难点是否清晰,进而根据实际情况合理调整自身的教学策略,不断改进与完善教学方法。数据挖掘的结果可以使教师有针对性的解决教学中的问题,教学评价不仅仅要为教师的教学状况进行判断,同时对于教学改革的方向也提出了明确的要求,其能够引导教师树立科学的教学观和正确的质量观,使教师可以清楚自身的不足和今后的努力方向,督促教师不断转变教学思想,对教学的过程进行改革,发挥教师自身的主观能动性和创新精神,最终实现有效的教学改革。
3.3 数据挖掘技术在教学管理中的应用
教师教学质量的评价主要由教学主管部门完成,因此教学主管部门要利用数据挖掘技术科学的收集数据,并选择合适的算法进行分析和处理,通过数据库资料分析出提升教学质量的关键因素,然后将这些因素反馈给高职院校管理层。教学管理人员根据数据挖掘分析的结果可以及时制定正确的改进措施,进而发挥教学管理的功能。教学评价结果对其他教师具有良好的借鉴作用,有利于不断提高教学质量。
4 总结
教学评价是高职院校教学管理的重要组成部分,对我国高职院校教学质量的提高具有十分重要的作用。数据挖掘技术是信息化发展的产物,它能够处理海量的数据信息,提取出信息之间的关联,发现相应的规律,以此来服务于教学评价。数据挖掘技术通过不同的算法,可以找出影响教学质量的因素,进而使决策者可以指定正确的决策,提升高职院校的教学质量。因此高职院校在教学评价工作中,要加大数据挖掘技术的应用,使教学评价能够更好的为提升教学质量服务。
参考文献
[1]董琳.数据挖掘技术在高职院教学评价中的应用研究[J].电脑知识与技术,2013,(4).
[2]江敏,徐艳.数据挖掘技术在高校教学管理中的应用[J].电脑知识与技术,2012,(8).
[3]吕慎敏.基于数据挖掘的高校教学管理决策支持系统研究[D].济南:山东师范大学,2012,(6).
关键字:数据挖掘;XML;电子商务
数据挖掘技术是数据库应用研究较为活跃的领域之一,因为其现实意义,使得数据挖掘的技术研究和应用有了很大的发展,在国内外科研领域都备受关注。特别是在电子商务领域数据挖掘技术有着巨大的使用价值。随着电子商务市场的日臻成熟,第三方电子商务平台上众多的网店之间的竞争正日益激烈,网店开展网络营销的成本日益增加。每个网店企业通过一定时间的经营都会收集到众多的客户数据,如何通过庞大的客户访问数据挖掘出潜在的客户需求的金矿,使网店经营企业快速有效的通过现有客户数据掌握市场的变化的规律和趋势,已经成为网店经营管理者急需解决的问题。本文将探讨一种网店客户数据挖掘系统的设计与实现的方法。
1、网店客户购买数据挖掘系统的设计
1.1 客户购买数据挖掘系统的实现原理
对客户数据进行挖掘的关键要点就是把现有的网店访问日志经过数据预处理转换成满足XML文件格式要求的结构化数据,然后使用DBMS工具将结构化的XML文件转换成关系型数据库,最后运用数据挖掘的方法从数据库抽取能够反映客户消费和购买行为的数据。具体工作过程如下:
1)确定数据来源(主要是顾客购买记录)
数据挖掘离不开海量的数据,每一个网店在经营一段时间以后都会记录大量的客户购买记录,这些客户购买记录当中就蕴藏着大量的信息,这些信息我们进行数据挖掘的数据来源。
2)进行数据筛选
客户购买记录中蕴藏大量的信息不可能全部为数据挖掘的对象,从数据源中提取需要的数据,将无用的数据和干扰信息从数据源中剥离,为进一步的工作做准备。
3)数据格式转换
将进一步筛选过的有挖掘价值的非格式化数据数据转换为XML格式的文件并存储。
4)导入数据库
将表示客户访问数据的XML格式文件使用数据库管理工具进一步转换成可以存储于数据库的关系型数据库文件。[1]
5)进行数据挖掘
应用数据挖掘的相关算法,对存储在关系型数据库中的数据进行挖掘,发现海量数据中隐藏的客户行为模式和消费趋势。
6)对数据挖掘的结果进行甄别
通过数据挖掘总结出的一些模式有时可能脱离客户真实行为模式的实际,因此在最后一步需要为对数据挖掘总结出的规则进行甄别,这个工作目前还需要有经验的专家人工完成,今后考虑结合人工智能的技术加以解决。
1.2 网店客户购买数据挖掘系统模型
在上述系统设计的基础之上,我们提出了网店客户购买数据挖掘系统的模型,该模型由三个层次组成,其逻辑架构如图一所示。
2、系统设计与实现
2.1 系统开发与运行环境
硬件环境:CPUIntelI3380M/RAM2G/硬盘320G软件配置:
操作系统:Windows7SP1
开发工具:Microsoft.NET2005/VisualC#
数据库管理系统:MSSQLServer2008
辅助软件:spssClementine11.1;SQLServer2008AnalysisServices(SSAS)
2.2 主要技术与系统实现
通过对上述对客户购买数据挖掘系统模型的分析可知,该系统主要由用户接口模块、数据清洗模块、数据格式转换模块、数据库生成模块和数据挖掘引擎模块等组成。
1)用户接口模块
本系统最终目的还是为为客户的决策提供支持,因此友好的界面设计是用户与系统交互的基础。简洁而易于理解的界面有利于提高用户对系统的使用效率。
2)数据预处理模块
客户访问数据进入数据预处理模块进行清洗,去除无关的信息,剥离出对数据挖掘有价值的数据。数据预处理模块对原始访问数据进行分析,将用户购买数据记录逐条的分割成十个字段,分别为:u_id(访问者编号),u_date(到访日期),u_time(到访时间),u_orderid(订单编号),u_product(客户购买的商品),u_bowser(使用的浏览器类型),page(首次到访页面),place(客户所在地区),payment(支付方式),logistic(物流方式),同时删除访问数据中与以上字段不相干的数据。然后将经过预处理的数据存入中间文件。
3)XML转换模块
该模块程序使用.NET的相关的方法编写,主要功能将预处理过的客户购买数据转换成标准化XML格式的数据文件进行存储。该程序的主要实现原理是对经过预处理的中间文件中的数据记录逐个分割并存入数组,然后将数组的内容按照XML的格式写入文件,完成转换。
4)数据库导入模块
利用.NET的相关方法并结合数据库管理工具建立支持数据挖掘的客户购买数据库,编写相关程序将已经转换成XML格式的客户访问数据逐条的导入到数据库并形成日志数据表方便进行后续的数据挖掘。
5)数据挖掘引擎模块
数据挖掘引擎是实现客户购买数据挖掘系统的实现关键。优秀的数据挖掘算法不仅可以使数据挖掘的结果更加准确,也可以提高数据挖掘的效率。本系统主要用到的算法是该模块利用数据挖掘算法对数据进行挖掘,主要包括算法的优化、日志数据表的删除操作以及挖掘结果集的保存与删除操作等。这里主要用到的算法是K-Means算法。主要是利用该算法发现最相似的客户聚类,通过对聚类的分析来得出网店众多的顾客一般的购买行为模式,从而可以适当地调整网站营销的策略中的来提高网络营销的效果,进而增加销售量。[2]
3、小结
本文主要讨论了一种基于XML技术的网店客户访问数据挖掘系统的设计与实现方法。通该系统可以帮助网店经营企业对大量的客户访问数据进行分析,从中发现市场的变化规律和客户的行为模式,使企业的网络营销工作更有针对性,同时也更富有成效。
参考文献:
中图分类号TP311.13 文献标识码A 文章编号 1674-6708(2010)33-0257-02
1 数据挖掘的概念
随着计算机技术的高速发展,互联网技术的风靡,获得相关资料已经是很方便了。但是人们也积累了大量的数据信息,面对这些庞大的数据,如何从中提取有用的信息成为当务之急,为此,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是发现知识的关键步骤。
2 数据挖掘的作用
2.1 关联分析
关联是反映两个或者两个以上事件之间存在某种依赖或联系规律性。关联规则挖掘是由Rakesh Apwal提出来的。在数据库中,如果存在一项或多项之间的关联,则其中一项属性值能够依据其他属性值进行推测。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中所有频繁项目集,这是数据挖掘中最成熟的技术之一。例如:每天购买洗发水的人也有可能购买肥皂,比重有多大。
2.2 聚类分析
聚类分析是把数据按照所选样本的关联相似性划分成若干小组,同一小组中的数据具有较高的相似度,不同组中的数据则相异,即同组中的相似性尽可能大,而组别间的相似性尽可能小。聚类事先不知道组别数和各组的相似特性。聚类分析可以发现数据的分布模式,以及可能的数据属性之间的相互关系。例如:将学生分为成绩优秀的学生,成绩中等的学生,成绩差的学生。
2.3 分类
分类就是按照以前数据库中的数据,分析它们的属性、特征,找出一个类别的概念描述,并利用这种描述构造模型,每个类别都代表了本类数据的整体信息,一般用规则或决策树模式表示。分类事先知道类别数和各类的典型特征。例如:学校根据以前的数据将教师分成了不同的类别,现在就可以根据这些来区分新教师,以采取不同的待遇分配方案。
2.4 预测
预测是利用历史和当前的数据找出变化规律,推测未来数据的种类及特征。预测是以时间为关键属性的关联规则。例如:对未来经济形势的判断。
2.5 偏差分析
数据库中的数据存在很多异常情况,偏差是对差异和极端情况的描述,发现数据库中数据偏离常规的异常现象,揭示内在原因。例如:在本次数学测试中有30%的同学不及格,教师为了提高教学质量,就要找出这30%不及格同学的内在因素,提高及格率。
3 数据挖掘的流程
3.1 定义目标
为了避免数据挖掘的盲目性,首先就必须清晰地定义出业务问题,确定数据挖掘的目标。挖掘的目标明确了,但结果是不可预测的。
3.2 数据准备
1)数据选择。在大型数据库和数据仓库目标中搜索有关的内、外部数据信息,提取适用于数据挖掘的数据;
2)数据预处理。研究数据信息,进行数据的加工、集成等,去除重复的数据信息,选择要进行数据挖掘的数据,并定义数据类型;
3)数据转换。数据转换决定数据挖掘能否成功,数据转换就是将数据转换成一个针对挖掘算法的模型。
3.3 数据挖掘
根据数据功能的类型和数据的特点完善和选择合适的挖掘算法,对所得到的经过转换的数据进行数据挖掘。
3.4 结果分析
解释和评估数据挖掘的结果,最终转换成用户能够理解的知识。
3.5 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
4 数据挖掘的应用
4.1 数据挖掘技术在市场营销中的应用
数据挖掘技术普遍应用于市场营销中,假定“以往消费者的行为是未来消费者的消费理念的直接解释”,以市场营销学的市场细化原理为基础。通过收集、整理消费者以往的消费信息为数据信息,总结消费者的特点及兴趣爱好,根据不同的属性分类,推测出类似消费群体的消费行为,对不同类的消费群体进行定向营销,这样降低了营销的盲目性,节省了营销成本,提高了营销效率,为企业创造出更多的利润。
在经济发达国家和地区,许多企业都利用数据挖掘技术对数据信息进行加工处理,针对不同的消费群体,发出不同的营销材料,以突出自己的竞争优势,扩大产品的营业额。
4.2 数据挖掘技术在商业银行中的应用
数据挖掘技术广泛应用于金融界,金融事务搜索大量的数据信息,对这些数据进行加工处理,发现其特征,从而发现不同类别客户的特点,评估其信誉,推测其需求。商业银行所作业务的利润与风险是并存的,为了保证最大利润和最小风险,必须对客户的账户进行科学精确的分析归纳。
美国银行使用数据挖掘技术工具,根据不同消费者的特点制定不同的产品,增强其竞争优势。
4.3 数据挖掘技术在医学上的应用
数据挖掘技术在医学上的应用相当广泛,可以利用数据挖掘技术手段来提高从药物的生产制造到医疗诊断等的效率和效益。在药物生产方面,通过对药物分子结构的分析,可以确定是什么成分对病患的治疗发挥了作用,从而推测出该药对什么病有治疗作用;在医疗诊断方面,通过对基因的分析处理,可以确诊是什么发生了病变,属于哪种病毒等。
4.4 数据挖掘技术在欺诈甄别中的应用
银行或者商业上经常发生欺诈行为,给银行和商业单位带来了不可估量的损失。通过数据挖掘可以对这种欺诈行为进行预测,总结各种诈骗的行为特征,提醒广大人们注意。
5 结论
数据挖掘技术是一个全新的研究领域,每年都有新的数据挖掘方法和模型产生,随着数据库等技术的发展,数据挖掘技术的应用领域将会更加广泛和深入。尽管如此,数据挖掘技仍然存在许多问题需要解决,尤其是超大规模数据挖掘的效率有待提高。
参考文献
关键词:数据挖掘技术;反洗钱程序;应用
Key words: data mining technology;anti-money laundering procedures;application
中图分类号:TP39 文献标识码:A文章编号:1006-4311(2010)21-0031-01
1反洗钱基本程序
1.1 定义目前关于洗钱的定义有很多种,国际上并没有一个统一的定义。但洗钱的本质就是利用资产、资金转换(转移)过程中所造成的信息缺失、信息隐蔽、信息不完整、信息不真实、信息复杂而使犯罪所得收益的原始来源和性质无法识别或追溯,从而掩盖和隐瞒其真实信息。
1.2 基本程序我国的反洗钱基本程序分为采集、监测分析和移交三个步骤:第一步,大额和可疑交易报告的收集。第二步,大额和可疑交易报告的分析和甄别。第三步,可疑交易线索移送。
1.3 反洗钱工作的主要问题①巨量数据报表和高误报率。②预设标准易于被洗钱分子规避。③无法自动适应洗钱形势变化。
2数据挖掘技术
2.1 数据挖掘定义数据挖掘(Date Mining),是指从大量的、不完全的、模糊的、随机数据中揭示出隐含的、先前未知的、并有潜在价值的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是帮助发现隐藏在数据中知识和信息的有力工具。
2.2 数据挖掘任务①数据总结。②分类。③关联分析。④聚类。
2.3 数据挖掘流程引入数据挖掘技术应用于反洗钱系统中,完成从大量数据中自动提取出模型的过程。在建立攻击检测系统过程中消除人为因素和特定因素,为其开发一个更加系统化的方法,即开发一套能从各种审计数据中产生攻击检测模型的自动工具。我们应用关联分析和序列模式分析等算法,发现特征之间的关联和与时序有关的联系,从而完成对用户数据的收集与特征选择过程。
2.4 常用的数据挖掘算法①决策树。首先,通过一批已知的训练数据建立一棵决策树;然后,利用建好的决策树对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因而可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。在反洗钱领域,决策树算法可以按照事前已经制定的决策模式对各种报告数据进行分类,最终以一种类似树状的决策结构显示出来,为分析者提供一个推力框架,帮助其摸清整个洗钱活动的过程并了解某一具体的洗钱操作在整个洗钱链条中的作用。决策树方法精确度较高,容易理解,效率也比较高,因而比较常用。②神经网络。神经网络系统由一系列类似于人脑神经元的处理单元组成,这些单元被称为节点。节点通过网络彼此互连,如果有数据输入,他们可以进行确定数据模式的工作。神经元网络可以通过本身所包含的无数个神经元持续不断地对报告数据进行反复计算,对某项资金流动是否牵涉洗钱活动进行认定,自动发现洗钱线索,并能通过自动学习制定出最为有利的反洗钱整体分析方案,提高数据分析效率。③相关规则。这是一种简单却实用的关联分析规则,它描述了一个事务中某些属性同时出现的规律和模式,依据一定的可信度、支持度、期望可信度、作用度建立相关规则。④K-nearest邻居。邻居就是彼此距离很紧的数据。该方法认为相邻数据必然有相同的属性或行为。因此,可以通过K个邻居的平均数据来预测该特定数据的某个属性后行为。⑤遗传算法。在反洗钱领域,遗传算法可以在发现可疑洗钱活动后沿最优路径追踪洗钱的各步操作,帮助分析人员总结大额可疑交易数据中所隐藏的洗钱疑点或疑点组合的发现规律,保证分析时能够发现某项洗钱活动的最重要线索,方便后期调查工作的顺利开展。⑥联机分析处理。其典型的应用有对银行信用卡风险的分析与预测、市场营销策略制定等,主要是进行大量查询操作。
3数据挖掘技术在反洗钱系统中的应用
3.1 系统的整体设计反洗钱系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性。到目前为止,研究人员已经提出实现了许多方法,但没有一种模型能够满足完全检测的要求。由于系统的设计和实现都取决于设计人员自身的知识储备和其对已知反洗钱形式的了解程度,因而系统的效率和环境性都受到了限制。
基于数据挖掘技术的智能反洗钱系统的核心就是从事件序列数据(训练数据)中挖掘正常和异常行为规则,构建规则库,在此基础上,再根据发现的证据进行反洗钱识别。
我们采用数据挖掘方法实现整个过程,并将它划分为三个过程。
①特征提取。②规则发现,对不同类型的数据,采用不同的数据挖掘算法发现其中的规则。③建立好规则库后,对每一次发现的证据,就可以根据规则来判断是否属于反洗钱行为。
3.2 基于数据挖掘的智能反洗钱模型的设计根据上面介绍的体系结构、数据挖掘方法和智能检测体系,我们设计了一种基于数据挖掘的智能反洗钱系统。其系统结构包括如下组件:数据处理、审计数据库、数据挖掘引擎、特征提取器、数据挖掘引擎、规则库、数据检测引擎和决策响应中心。
自适应数据挖掘反洗钱系统的工作原理如下:①活动监测Agent采集来自外部网络环境的各种数据,并把这些数据传送给协同Agent,协同Agent对从活动监测Agent来的数据进行过滤、格式转换等预处理,然后将数据存入审计数据库中;②审计数据库组件存储数据,并利用数据库查询技术产生训练数据集,同时特征提取器采用数据挖掘技术对当前用户行为进行分析,从中提取出当前用户行为特征;③数据挖掘引擎利用数据挖掘技术对审计数据库中的数据和提取出的特征进行学习,从中提取出有关行为特征和规则,建立异常模式和正常行为轮廓,从而建立检测模型,并存入规则库中;④数据检测引擎接受来自特征提取器的数据特征和数据挖掘引擎建造的模型与来自规则库中的正常规则进行分析,将分析结果送给决策中心;⑤决策中心分析判断结果以决定是否报警或更新规则库。
来自多个地方的数据,主要通过如下方式进行处理和转换。
(一)数据挖掘技术的概念
数据挖掘技术是从许多的、不完全的、相对模糊的、存在噪声的、任意的实际数据当中,找出其中隐藏的、人们原先不了解的、但又是实际存在的、有用的信息和知识的过程[1]。数据挖掘所得信息具有先前未知、有效和实用三个特征。决策者对挖掘所得信息进行分析,从中提取出隐藏的关系和模式,来对未来发生的行为进行预测。
(二)数据挖掘技术的运用
在使用数据挖掘技术的过程中,数学方法经常被用到,但在一些特殊的时候,也会用到非数学的方法。另外,使用数据挖掘技术过程中,除了上面提到的方法外,还可以用演绎的方法和归纳的方法收集数据。在使用数据挖掘技术过程中,利用对相关数据进行挖掘、收集和分析得出相应的结果,并且这个结果在某些情况下,恰好能被用在管理信息、优化查询、过程控制、决策支持及数据维护等方面[2]。然而,由于数据挖掘技术特性,其在使用的过程中,涉及学科比较广,并且还涉及数据库、数理统计、人工智能、并行计算、机器学习、可视化等许多领域。数据挖掘技术中,常用到的有规则归纳、决策数、人工神经网络、遗传算法,以及可视化等技术。
二、数据挖掘技术的形式
数据挖掘分为描述型与预测型两种形式。描述型是对数据中存在的规则进行描述,并且依据数据具有微观性的特点找出其表征的、普遍性强的、概念层次较高的、比较宏观的知识,并对数据进行概括总结和抽象来描述出同一类事物的相同属性。预测型是分析和处理现有的数据,来获得某类事物中某些属性的内容,或者是预测出某类事物将来形成的规律等。在使用这两种挖掘技术时,经常用到的方法有分类方法、关联方法和粗糙集方法。
(一)分类
在运用计算机数据挖掘技术的过程中,分类是挖掘技术里的重点部分。数据收集的好坏,以及收集的数据的属性分析都是由分类决定的。因此,分类在运用挖掘技术的过程中具有非常重要的作用。分类是对数据库属性进行分析,把元组划分成不同种类的过程。并且在其划分过程中,根据数据形成的训练集,来集中对部分数据进行处理划分。然后,再对余下的部分数据做测试,在测试满足要求以后,遵守对应的规则对其分类。在实际分类过程中,比较有代表性的分类过程是:明确分类的范围、找出目标属性、组成训练集、研究属性、算法选取、分类计算、结果显示、选出测试集、分类规则验证、输出分类规则等[2]。
(二)相关规则
相关规则是数据挖掘技术中,比较简单实用的关联分析规则。它可以准确地将相关数据进行描述,并且能够对数据进行严格分析。在相关规则使用过程中,主要是对具体事物进行描写,并按照相同属性进行结合,然后对其进行总结概括,找出其共同属性和模式。一般会将关联规则直接应用到数据库中,统一地记录下每个事物得出的数据,不但可以正确地记录数据,同时消减了数据的搜索空间,使得整个运行系统得到改善和提高。
(三)粗糙集
数据挖掘技术中的粗糙集是被用作对不精确和不确定性知识进行研究的一种数学工具,在系统整个使用中占的优势比较大[3]。首先,在使用粗糙集方法时,相应的信息不需要了解,并且在运算的时候,算法比较简单且容易控制,得到大量的计算机用户的喜爱。其次,在运行粗糙集的过程中,能从数据中发现异常,排除知识发现过程中的噪声干扰,同时还能将这类数据的规律在最短时间内找出,并利用表格对其进行归纳总结,将其变成决策表,为使用者的查询提供方便。最后,在客观世界,应用有些规则的过程中也会出现不确定性。应用数据库的时候会产生许多不确定性的信息,而这些不确定性都得依赖粗糙集对其进行处理,这样就使得数据挖掘的效率得到大大提高。
三、挖掘技术在档案管理中应用的意义
记录历史资料的重要工具就是档案,它直接反映了档案管理人员的智慧和成果[3]。由于计算机网络的迅速发展,在管理档案信息的实际应用中,引入挖掘技术可以使档案的管理水平得到提高,并且改革了档案信息管理的模式。因此,数据挖掘技术应用在档案信息管理中是具有非常重要意义的。
(一)提高档案信息管理的安全性
档案信息是记载一些比较宝贵的资料,由此可知其价值的表现就是档案信息的实体。对档案管理者来讲,保存有历史意义的档案信息的时间应越长越好。保存得越长远,越体现了档案信息的价值。其使用价值相对应地增大了,被使用的频率也相应地增加,使保管工作非常困难,使用次数越频繁,就越容易缩短档案信息的寿命。同时,保密性是档案信息管理的另一项重要工作,万一档案信息外漏,不仅相关人员的隐私权受到侵犯,还有可能对其以后生活造成消极负面的影响,造成了档案保管与使用之间存在矛盾[4]。将数据挖掘技术运用到档案管理中,可以很好地避免这种情况的发生,从而保护档案信息实体和内容的安全。
(二)加快档案管理的效率,降低档案管理的成本
档案管理工作中引用数据挖掘技术,能够有效改变以往传统的档案管理模式。使得档案管理人员的工作效率和档案信息管理水平得到提高。引入数据挖掘技术,工作人员的管理时间被大量节省,处理档案信息的速度得到提高。同时,还可以加快档案鉴定工作的发展。档案管理工作中的一个重要环节就是档案的鉴定,传统的档案鉴定工作是由档案管理人员凭借多年经验来实现的,具有主观性。数据挖掘技术的运用,可以防止在鉴定档案工作中因档案管理人员的主观性而造成有价值的档案丢弃,为档案管理工作提供了比较有效的定量化方法,使档案的鉴定工作有据可依。
四、数据挖掘技术在档案信息管理系统中的运用
随着计算机信息化的迅猛发展,档案管理工作也需要进一步的完善。过去的档案管理方式已经不能适应当代社会的需要,很多数据信息无法有效地使用。要想有效地利用现有的档案数据,使其价值得到充分发挥,使用数据挖掘技术把那些隐含的信息挖掘出来,对其总结和使用是非常有必要的。档案信息管理中使用数据挖掘技术,能让挖掘出的知识信息得到发挥,并且能使档案数据信息价值被充分地利用。档案管理中应用数据挖掘技术的方法有以下几种:
(一)档案分类法
档案分类法是按照不同的种类把许多档案进行整理的方法。把档案中属性相似的放在同一个类别中,把那些档案属性不同的放在不同的类别当中。在档案进行分类的过程中,数据挖掘技术能够详细地划分这些档案的类别,帮助管理员进行档案归类,档案的检索效率和速度得到有效提高。
(二)档案收集法
档案收集法是先分析数据库中的数据,并通过对这些数据做详细的描述建立模型。然后用这些模型和所有的测试样本进行对比,一旦经测试后有一个模型与样本相符合,就可以依据这个模型对管理对象进行分类。
中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2013) 24-0000-01
随着通信市场竞争日趋激烈,电信客户的通信需求和消费理念都发生了显著的变化。为满足客户的应用需求、提升市场竞争力,就必须将当代通信服务由以产品为导向以客户需求为导向转变,通过建立客户数据库,对客户的类别属性、消费类型以及消费倾向等进行分析。数据挖掘技术是一种大数据环境下的数据分析方法,其可以在海量数据中建立一种内在的联系,基于该联系对客户进行细分,协助企业制定更具价值的认知体系和决策规则。
一、电信客户细分特点
客户细分包括客户描述与划分两部分内容。前者主要是提取可用于描述客户的特征和属性,以便于可应用该描述内容对客户行为模式进行预测和评估。后者主要是对经过特征化后的客户进行类别划分,使具有共同类别与特点的用户归入同一类别,以便于增强服务和营销的针对性与有效性。对客户进行细分可以调整资源分配结构,满足商业目的,对不同类型的客户指定不同的营销策略。
电信市场是典型的以客户为中心的消费市场,对该市场客户进行细分可以提升企业争取新客户、保留老客户、维护现有客户价值、拓展企业市场份额与经济效益的目的。
总结来看,电信客户细分中需要从以下几方面特征出发:一是电信客户消费具有持续性,为维系客户关系,就需要以该特征为着力点;二是电信客户消费层次和类别更为明显,如电信企业的客户分为具有较强稳定消费能力的集团用户和消费能力差别较大的个人用户;三是客户自身特点占据的权重较大,如客户的消费习惯、个人价值、品牌忠诚度、人际关系等。
二、数据挖掘技术及其在电信客户细分中的应用特点
数据挖掘技术本质是借助大量的知识体系和数据分析技术对海量、无序的数据信息进行整合与关联建立,从中提取可有效反映数据内部规律和模式,并依照所总结出来的规律与模式对未来的发展情况进行预测与评估,帮助决策者制定更有效的执行策略。
传统的电信客户细分方法主要使用资料调查或客户价值分析等两种,前者具有较少的细分维度,调查结果更易理解和应用,但是受调查样本数量的限制,其结果的可靠性和有效性有待进一步确认;后者操作简单,对于高价值电信客户细分具有良好的应用效果,但是在体现不同客户、不同业务、不同消费结构差异性等方面存在一定的缺陷。
在电信客户细分中应用数据挖掘技术可以有效利用企业发展过程中产生的大量数据进行多维度、多层面、多角度的客户细分,并为细分结果提供高可靠性的理论支持。特别是数据挖掘技术中的聚类分析方法可以将客户群按照电信企业最为关注的消费行为和消费价值进行细分,体现出不同客户属性之间的差异性,协助制定更加完备的营销策略。基于数据挖掘的电信客户细分可以分为战略细分和策略细分两类。前者主要是对客户特征进行分析与研究,从中查找适当的营销机会;后者主要是对营销活动进行分析与研究,为其选取最佳的目标人群。
三、基于数据挖掘的客户细分模型分析
(一)细分模型设计
细分模型应该包括三部分内容,即客户部分、市场部分、营销部分。
客户部分可进一步细化为客户分类和客户分析两类。客户细分中应该从客户消费习惯、消费种类、消费频度、消费结构、消费模式等建立模型,以便于电信企业依照这些特征对已有客户的收益率、新客户的定位、现存客户与流失客户特征等进行定义。客户分析模型则需要包括客户的行为、关系、价值属性、利润率、忠诚度以及业务量等内容,通过这些内容,电信企业可以对现有的营销进行效果分析。
市场部分主要体现为市场预测与市场总结等内容。建立可靠、客观的市场模型可以帮助企业制定更精准、分类更清晰、目标性更强的市场策略,并依照所架构的市场模型对用户行为进行解释,对未来用户的行为趋向进行预测。
营销部分可进一步细化为辅助营销、定向服务以及价格定位三部分。辅助营销模型可以针对特定的客户群使用特定的手段进行分析与研究,进而开拓更具针对性的销售渠道和宣传策略,充分满足客户的消费需求,在维持现有客户关系的基础上提升客户价值,拓展客户量。定向服务则是充分听取客户的消费需求,制定差异化服务策略,提供全方位、高质量定制服务。价格定位则是对客户的价格敏感度建立模型并深入分析。
(二)电信客户细分中的数据挖掘技术
目前,电信客户细分中所使用的数据挖掘技术主要分为分类、聚类以及统计分析三类。
分类可以依照预先制定的规则制定清晰的分类标准,并依照该标准对客户进行归类,生成预测模型。分类可以有效反映同类客户中的同属性知识特征和不同客户中的差异性知识特征,其具有非常强的预测性、指导性和方向性。常用的分类数据挖掘算法有神经网络法、决策树法、贝叶斯法以及示例学习法等。
聚类则是在海量的数据中对客户属性进行归纳与总结,将分析对象依照共同的特征分为多个簇,然后再在簇中进行特征提取,生成聚类标准,依照该标准对不同用户进行分类、对不同簇进行更新。该技术无需指导和事先规则的制定。常用的聚类数据挖掘算法有神经网络法、模糊聚类法、统计聚类法等。
统计分析则是直接对客户进行分群或辅助其他数据挖掘技术共同实现电信客户细分。其以一定的方法从数据库中提取样本,并对这些样本进行行为、地域、年龄、需求等进行差异性分析,辅助其他数据分析与处理技术即可实现客户的细分。常用的统计分析方法有交叉分析、相关分析、显著性分析、因子分析等。
参考文献:
[1]蔡宁.基于数据挖掘的电信客户细分研究[D].江西理工大学,2008.
二、旅游业数据挖掘算法选择
数据挖掘中常用的基本分类算法有决策树、贝叶斯、基于规则的算法等等。其中,决策树是目前主流的分类技术,己经成功的应用于更多行业的数据分析。在关联规则挖掘研究中,最重要的是Apriori算法,这个算法后来成为绝大多数关联规则分类的基础。聚类算法也是数据挖掘技术中极为重要的组成部分。与分类技术不同的是,聚类不要求对数据进行事先标定,就数据挖掘功能而言,聚类能够可以针对数据的相异度来分析评估数据,可以作为其他对发现的簇运行的数据挖掘算法的预处理步骤。各种算法分类模型建立有所不同,但原理是大致相同的。笔者考虑决策树算法结构简单,便于理解,且很擅长处理非数值型数据,建模效率高,分类速度快,特别适合大规模的数据处理的优点,结合旅游产业数据特点,故作重点分析。
三、旅游业数据挖掘系统需求分析
旅游业数据挖掘系统的基本特点如下:统计旅游兴趣;购物消费趋向;推荐其感兴趣的旅游景点;在后台管理中,通过决策树算法对游客数量、平均年龄、景点收费、游客来自地区等进行分析总结,为旅游消费者和旅游管理者提供服务:为消费者提供吃住行购娱乐天气各方面信息查询、机票、车船票、酒店、景区门票、餐饮等方面的预定与现金支付、第三方支付、消费者评价、在线咨询等方面的便利、快捷服务。为管理者提供推荐、游客管理、线路管理、景点管理、特色服务管理、机票管理、在线咨询管理、旅游客户关系管理等服务,提高整体服务效率和水平。
四、旅游业数据挖掘系统的实现
旅游业信息管理系统包括游客信息管理与游客信息分析两个子模块。根据系统日常运行出现的问题及时对系统进行维护,如添加或者删除某个模块功能,系统整体运行速度的更近等。系统运用数据库层、持久化层、业务逻辑层、表示层四层体系结构,主要利用ID3算法达到旅游数据信息的快速、准确分类。考虑了游客与酒店之间的关系、游客与旅游路线之间的关系、游客与旅游景点之间的关系、游客与机票、车票之间的关系、管理员与游客之间的关系、逻辑结构设计。程序之间的独立性增加,易于扩展,规范化得到保证的同时提高了系统的安全性。详细功能设计包括:用户登录、用户查询、预定及支付、后台管理、旅游客户管理和数据分析等方面。本系统中主要运用Java语言就行逻辑上的处理。系统主要使用Struts2和Hibernate这两个框架来进行整个系统的搭建。其中Struts2主要处理业务逻辑,而Hibernate主要是处理数据存储、查询等操作。系统采用Tomcat服务器。系统模块需要实现酒店推荐实现、景点推荐实现、天气预报实现、旅游线路实现、特产推荐、数据分析展现功能、报表数据获取、景区客流量变化分析实现等。需要进行后台信息管理等功能测试以及时间测试、数据测试等性能测试。