时间:2023-06-05 08:44:29
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据分析论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
1.1数据采集系统
大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现.因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展.广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产.对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向.因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据.采集频率要求可以实现实时采集和定时批量采集.采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力.
1.2数据分析中心
广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息.在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持.因此采用两种方式分析方法对收集到的数据进行分析处理.一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的.这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况.在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的.这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作.二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则.这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据.
1.3数据应用中心
在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题.通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向.对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:
1)推荐中心
推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务.从而提升用户的使用体验,提升用户的满意度和粘度.
2)决策中心
决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求.
3)服务中心
服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等.通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系.为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果.为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品.通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报.
1.4系统管理
系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等.
2数据应用分析
移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平.大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义.数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性.依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析.
2.1直播节目分析主题
直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用.实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收.
2.2多媒体业务分析主题
广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务.可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作.互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势.利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值.
2.3互联网应用分析主题
广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性.在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题.运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的.同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导.
2.4广电客户分析主题
在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难.通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化.从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性.
2.5市场收益分析主题
三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据.利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐.如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导.
2.6智能内容推送主题
深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容.广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度.信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息.大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力.
2视频监控在烟草行业的发展及应用现状
(1)烟田监控:实现对烟田、育苗大棚内实时监控;
(2)烟叶收购站监控:实现对烟草所有站点烟叶收购全流程监控视频调看、查询、巡视、控制的功能;
(3)生产及公用设施区监控:主要用于监控车间内重要设备、生产线运行、物流线路及环境状况,以及动力中心车间内空调、锅炉等重要设备的运行及环境状况,防止灾害和事故的发生。
(4)烟草物流配送中心监控:对物流配送中心进行实时监控;
3视频大数据分析的技术需求
随着视频监控在烟草行业的大规模应用,视频数据量的增加,每天产生的数据量都是以TB(1000GB)级别计算的,若是利用传统的技术手段对每天的视频进行检索和分析,则需要数小时的时间才能够完成,工作量及工作难度可想而知;而对于更高级别的视频数据,如PB(1000TB)级别的视频数据进行分析和检索时间那就是很多天了。视频检索与分析的效率低下,也是目前视频数据利用效率及数据价值低下的首要原因。为此,如何提高视频数据分析与检索的效率,如何针对PB(1000TB)级别甚至EB(1000PB)级别的海量数据进行分析与检索,提升视频监控数据价值,成为了当前用户的首要需求,也成为了当前视频大数据分析技术的难点及关键点之一。同时,在对视频进行检索与分析的过程中,需要考虑检索结果的准确性。由于视频图像信息为非结构化数据,如何合理有效地对非结构化的数据进行检索分析,优化计算机图像识别算法,是提高视频大数据分析准确性关键所在。再者,当完成视频检索与分析后,如何做好视频数据与非视屏数据的整合与关联工作,是后期视频数据应用时重点考虑的内容。
4视频大数据在烟草行业的应用思考
时下,烟田监控、烟叶收购站监控、生产及公用设施区监控、烟草物流配送中心监控等的视频监控数据较多仅仅用作安防视频使用,还未涉及到与烟草业务的关联;随着视频监控建设的完善及视频大数据技术发展,各类监控视频数据量的增加,考虑到投资回报比,是否可以通过视频大数据分析,将烟草业务与视频监控相关联,在海量的视频监控数据中提取有益于烟草行业发展的变革或新技术呢?
4.1安防业务
基于传统视频监控,安防业务是传统业务之一,通过大数据分析,有效快捷的提取安防所需要的视频片段。同时基于视频行为告警策略,及时告警。
4.2安全生产
结合视频大数据分析,将以往多次生产事故监控视频整合,通过对多次生产安全事故的分析,总结出更为安全可靠的生产规则;再则通过视频监控与生产行为的结合,制定安全生产标准,通过声音报警或警示灯报警等技术,在不符合标准视频监控预定义的安全规则情况时,能够及时报警。通过视频监控分析,提升生产的安全性。如采用彩色网络快球摄像机和彩色固定网络枪式摄像机,彩色网络快球摄像机的预制位设置应优先,根据视频大数据分析后,系统可提供不同故障区域或设备的故障信号,各工艺段或设备的操作运行信号,通过系统集成与生产监控实现联动,平常摄像机对正在操作或运行设备进行监控,一旦某个故障点报警,摄像机立刻自动转动到报警点,监控中心的NVR主机开始录像等。
4.3效率生产
结合视频大数据分析,通过分析各个不同烟站或烟厂中的同一种生产行为,结合对海量数据进行智能分析,提取出价值数据片段,形成元数据信息库,再通过人为加工后期数据,总结形成效率生产有用的价值信息,提供生产借鉴,提高生产效率。
4.4创新生产
通过视频大数据分析,将以往的视频通过轨迹分析,得出以往生产过程中各类生产动作中不必要或者多余的部分,简化或者优化生产规则;通过对给类生产行为的总结,提出合理的建议,为生产提出创新性意见或建议,提高生产率。
这一现象并非小问题:出口量增幅远大于出口额是汽车大部分瞄准低端市场低价出口统计上的表现。据海关统计分析显示,2005年我国整车出口企业共有1025家,其中出口量在10辆以下的就有600家,出口仅1辆的有185家,近900家企业的出口额仅占全国整车出口额约10%。随着中国低价汽车及零部件的出口,他国逐渐采取反倾销和关税壁垒措施来应对。
二、汽车出口价格低廉成因分析
低价的原因自然包括了中国的劳动力水平相对较低,但在全球化背景下,专业化分工日趋明显,许多品牌汽车也选择在劳动力成本相对低的环境下生产,但同样高价出售。这说明,低价不仅是劳动力成本低导致。
汽车出口低价的另一原因是中国相对缺乏自主品牌。从经济学的角度看,同质产品的价格需求弹性大,顾客对价格的变动极敏感。生产同质产品的厂商为使利润最大化采取降价的方案,最终基本只能得到正常利润,无法获得超额利润。目前中国汽车市场自主品牌还屈指可数,且大部分局限于模仿水平,真正进行自主创新开发出顾客很难找到替代品的汽车的情况还很少。汽车大量的同质化使得厂商选择打价格战。
着重于模仿而非创新也使中国汽车出口面临知识产权纠纷不断。美国、欧盟、日本在与我国的经贸谈判中重点关注的问题之一即是汽车产业知识产权,而国内汽车企业在知识产权的拥有数量和质量上与外资、中外合资汽车企业相比都远处下风。一方面,不少跨国汽车公司通过合资的方式进行品牌扩张,并积极通过商标注册维护自己的品牌;另一方面,大部分中国汽车厂商也把精力放在模仿而非创新上,很多没有清晰的发展自主品牌的意识。
出口秩序混乱,一些汽车厂商不规范生产,是出口低价的另一原因。一些厂商出口翻新车、报废车,或者用废弃零件生产的汽车,这类汽车要价低廉,但质量一般没有保障,更不必说销售及售后服务,这造成了不好的影响。面对难以鉴别优劣的汽车市场,消费者一般也不会出高价去购买可能面临质量风险的汽车。中国低质汽车在海外市场的大量出现将会对中国整体的汽车出口都带来负面影响。
可见中国汽车出口量增幅远大于出口额增幅折射出了包括缺乏自主品牌,出口秩序混乱,生产不规范等不少问题,这些问题又进一步引发反倾销、知识产权纠纷,对中国汽车出口产生了重大影响。
三、促进我国汽车出口由数量型增长向质量型增长转变的思路
为促进中国汽车出口持续稳定快速发展,应主要把握以下几个方面:
1.把握好技术引进与自主创新之间的关系,推动技术与质量的升级
中国一直以来采取“市场换技术”的战略,但并未发挥很好的效果。比如在加工贸易方面,大部分情况中方只赚取一些加工费,并未得到技术外溢的收益。即使在技术引进过程中,我国企业也普遍存在“大钱搞引进,小钱搞改革,没钱搞消化”的问题。引进技术不能引进核心技术,没有消化吸收和自主创新很可能出现的结果是大部分厂商制造出同质产品,极易导致价格战的出现,不利于厂家战略发展。
目前自主创新已成为全社会的共识,国家正通过一系列政策鼓励与扶持汽车企业进行自主创新,我国汽车企业应该充分利用各种有利的政策坚定地进行自主创新,推动自身的发展。
2.加深知识产权认识,着重自主品牌打造
我国大多数汽车企业中并未把知识产权工作纳入经营管理的范畴,真正将知识产权与技术创新有机结合的并不多。知识产权意识不强使得部分企业出现要么不尊重他人知识产权从而引起纠纷,要么在合作中放弃了知识产权的权利要求,使企业蒙受巨大损失。
强化企业的知识产权意识,不单单是要尊重他人的知识产权,同时也需要主张自己的知识产权权利要求,加强对知识产权的管理。正确且充分的知识产权的认识将为自主品牌的打造提供有利的环境,为企业的长远发展打下坚实的基础。
3.加大监管力度,规范出口秩序,要求企业保质保量生产销售
商务部等政府主管部门以及相关部门应采取积极有效的措施对中国汽车出口进行引导和推动,以改善中国汽车出口环境,为高质量汽车的出口搭建平台,加强相应的服务并提高效率,规范汽车出口的秩序,并且通过广大企业和行业组织等中介机构的努力,以实现汽车出口的持续稳定快速的发展。
参考文献:
[1]汪莹:我国汽车出口市场研究[J].汽车工业研究,2007
[2]笪莉萍:我汽车零件出口屡遭反倾销[N].上海青年报,2006年8月30日
[3]刘彬彬:汽车产业知识产权问题引起关注[N].中国工业报,2006年9月22日
野外人工模拟降雨试验要在前期土壤水分不饱和的状态下进行,因此每次模拟降雨试验只能在同一径流小区进行一次降雨过程。为获取更多的野外模拟降雨产汇流及水土流失对比数据,计划在每个项目区的典型坡度———5°~8°、8°~15°、15°~25°分别建设坡地径流小区。径流小区的布设与等高线垂直,根据相关规范和实际条件,径流小区投影面积一般为60m2,即20m(顺坡投影长度)×3m(宽与等高线平行)。云县石佛山坡耕地水土流失综合治理试点工程水土保持监测项目于2010年12月初完成8°、12°、15°三块坡地小区的建设,2011年6月下旬第一次模拟降雨试验后,为方便对比分析,根据工程进展情况在12°坡地小区旁增设一块梯地小区。
1.2人工模拟降雨系统
此次人工模拟降雨试验采用西安理工大学研制的人工模拟降雨试验系统(图1)。它基于工控组态软件,应用现有的人工模拟降雨试验装置,将试验过程的常用设备和工控软件结合在一起,增加了自动控制环节,通过对控制系统进行改造,解决了手动调节雨强不方便的问题,实现了对不同时段、不同雨强、不同分布的人工模拟降雨系统的手动和自动双控制,采用监控组态系统更好地满足了人工模拟降雨试验的需求。该人工模拟降雨系统可建于自然坡面上,高6m,降雨试验区长20m、宽3m,有效降雨面积60m2。降雨系统布设在降雨装置支架上,喷头选用与天然降雨雨滴谱最为接近的X型下喷式喷头,由4组不同喷嘴孔径组合而成。为兼顾模拟降雨的均匀性与搭建支架的经济性和安全性,将系统在野外难以架设的固定式方钢支架改为钢管脚手架。顶宽超出径流小区宽度方向两边各0.3m,顶端横杆按照水管和喷头分布架设,压力控制装置设4个出水管,每管对应同一喷嘴孔径的喷头,共设置4组24个不同喷嘴孔径喷头,支架内部无任何遮挡。压力控制装置可自动、手动控制出水管的全开、全关或部分开启。本系统可模拟降雨强度变化范围4~200mm/h,降雨雨强最小分辨值1.3mm/h,降雨强度控制精度0.66mm/h,降雨均匀度>0.95。系统采用先进的闭环自动控制理论和技术,是一种应用交流变频调速器控制的人工模拟降雨自动控制设备,以降雨过程的最终实际降雨参数控制和驱动系统的各个降雨部件,克服了从水源到喷头之间诸多环节对降雨的随机影响。实验室测试结果表明,该设备的主要性能指标优于国内外其他人工模拟降雨系统,是进行土壤产汇流和侵蚀规律研究的重要试验设备。
1.3人工模拟降雨雨强
石佛山小流域位于云南省临沧市云县幸福镇幸福村水土保持监测项目区。模拟降雨设计频率及雨强参照幸福雨量站。该站距项目区直线距离2km,1983年建站,有1983—2010年共28年的完整降雨资料,降雨资料质量可靠,能满足设计暴雨频率分析要求。通过幸福雨量站1h短历时暴雨频率计算,石佛山小流域100年一遇1h降雨量为84.8mm,50年一遇1h降雨量为77.0mm,30年一遇1h降雨量为72.1mm。人
工模拟降雨采用100年一遇1h降雨过程。
2人工模拟降雨监测结果
2.1JDZ02型自记雨量器记录结果
人工模拟降雨试验于2011年1月开始,至2012年9月结束,跨2年历时40天,试验时间分别为枯水期两次(第一次、第三次)、主汛期两次(第二次、第四次)。在不同坡度的径流小区分别进行15场次的人工模拟降雨试验。
2.2普通雨量器监测结果
径流小区人工模拟降雨面降雨量采用普通雨量器监测,用算术平均法计算平均面降雨量。用普通雨量器观测的15场次人工模拟降雨面降雨量计算结果见表3。
2.3人工模拟降雨产流产沙量监测
人工模拟降雨雨强采用100年一遇1h降雨雨强。在模拟降雨试验前采用移动墒情监测仪和称重法在各小区距地表10、20、30cm土层剖面处取土样分别测定前期土壤含水率,并取平均值。产流产沙量的监测是在有径流产生时,每5min取1个水样,采用加权平均法计算平均含沙量,并用容积法记录产流量。监测结果。
3试验结果分析
3.1人工模拟降雨试验降雨监测结果分析
云南省人工模拟降雨试验是全国第一次大规模使用人工模拟降雨系统在野外研究土壤产汇流和侵蚀规律的试验。实验室内的环境与野外环境差距较大,在野外试验虽然是按100年一遇的标准进行人工降雨,但是由于受风速、风向影响较大,加之降雨雨滴与实际还有一定差距,所以部分降雨随风飘落到小区之外,落到小区地面的降雨标准也因此降低。考虑到上述情况,试验都选在无风或轻微风和微风的环境下进行。将径流小区内安装的JDZ02型自记雨量器记录的降雨雨强与设计降雨雨强进行相关性分析,相关系数都在0.6以上,说明人工模拟降雨过程与设计降雨过程之间存在强相关。根据统计学原理,使用Brown-Forsythe检验法检验设计降雨过程与12场次JDZ02型自记雨量器记录降雨过程的差异性,在显著性水平α=0.05下检验结果为各组之间差异不显著。对比设计雨量与JDZ02型自记雨量器记录结果,有7场次降雨接近或超过设计雨强,说明在径流小区局部,人工模拟降雨雨强是达到设计要求的。对径流小区12场次面降雨量监测结果进行分析,小区内模拟降雨重现期达到10年一遇以上的有7场,以下的有5场,最高重现期为13年一遇,最低为2年一遇。小区内降雨极不均匀,单个普通雨量器收集的降雨量有的大于设计雨强,有的小于设计雨强,特别是小区两侧降雨量与设计雨量误差最大,达到82.5mm。受风速、风向、试验支架架设高度和植被的影响,用加权平均法计算出径流小区内21只普通雨量器的实测面平均雨量均小于设计雨量,相对误差在-62.7%~-27.0%之间,未达到设计要求。
3.2径流小区产流产沙情况分析
(1)8°径流小区。由表4知,第一次模拟降雨试验,坡地小区土壤含水率接近饱和、植被覆盖率为0,降雨4min后开始产流,历时1h,产流量1.402m3,产沙量15.6kg。第二次试验在主汛期进行,土壤含水率接近饱和,小区内种植玉米,植被覆盖率为100%,降雨2min后开始产流,历时62min,产流2145m3,产沙量10.2kg。第三次试验,小区土壤含水率12.16%,植被为杂草和伐倒的玉米植株,植被覆盖率为70%,降雨9min后开始产流,历时40min,产流量0.064m3,产沙量0.015kg。该次模拟降雨面平均雨量为44.1mm,仅占设计雨量的48.5%,加之前期土壤含水率低,因此产流量和产沙量都较小。第四次试验,小区内种植的玉米已进入成熟期,植株较高,植被覆盖率为100%。试验时为减小风力对人工模拟降雨的影响,将降雨架高度由6m减至4m。降雨27min后开始产流,历时12min,产流量0.082m3,产沙量0.082kg。该次降雨面平均雨量为59.9mm,占到设计雨量的70.6%,但是由于小区前期土壤含水率低,仅为9.04%,故产流量和产沙量都较小。
(2)12°径流小区。第一次试验,由于模拟降雨面平均雨量小(31.6mm),虽然前期土壤含水率高达1503%,但该次降雨条件下该小区未产流。第二次试验,小区前期土壤含水率已接近饱和,植被覆盖率达100%,降雨2min后开始产流,历时58min,产流量1.513m3,产沙量20.9kg。第三次试验,小区前期土壤含水率11.41%、植被覆盖率70%,降雨11min后开始产流,历时42min,产流量0.156m3,产沙量0.044kg。该次模拟降雨面平均雨量较大,占到设计雨量的71.3%,但是由于前期土壤含水率低,故产流量和产沙量都较小。第四次试验,小区植被覆盖率100%,降雨31min后开始产流,产流时间5min,产流量0.010m3,产沙量0.004kg。该次模拟降雨面平均雨量达到50.9mm,占到设计雨量的60.0%,但是受土壤含水率仅为10.59%的影响,产流量和产沙量都较小。
(3)15°径流小区。由表4可知,第一次试验,小区前期土壤含水率为16.05%、植被覆盖率为0,降雨30min后开始产流,历时10min,产流量0.0165m3,产沙量0.133kg。第二次试验,土壤含水率已接近饱和,达20.65%,小区植被覆盖率60%,降雨7min后开始产流,产流53min,产流量0.629m3,产沙量10.6kg。第三次试验在冬季进行,小区植被覆盖率为80%,由于前期土壤含水率低(10.41%)、面平均雨量偏小(43.3mm),因此该次降雨在该小区未产流。第四次试验,小区植被覆盖率100%,人工模拟降雨60min未产流,为检验产流情况,在12:15将人工模拟降雨装置闸门全开,以最大降雨强度连续降雨5min,于降雨64min后开始产流,产流5min,产流量0.022m3,产沙量0.036kg。该次模拟降雨历时65min,面平均雨量达到61.1mm,占到设计雨量的72.1%,受前期土壤含水率(10.74%)较低、植被覆盖率较高影响,该小区产流量和产沙量都较小。(4)梯地径流小区。由表4可知,梯地径流小区第一次试验在主汛期进行,前期土壤含水率为17.46%,植被覆盖率为20%,降雨2min后开始产流,产流48min,产流量1.146m3,产沙量1.93kg。第二次试验在冬季进行,小区前期土壤含水率8.09%,植被覆盖率90%,模拟降雨面平均雨量为58.5mm,由于前期土壤含水率过低,该次降雨在该小区未产流。第三次试验在9月份进行,前期土壤含水率为8.48%,植被覆盖率为100%,模拟降雨面平均雨量为54.1mm。该次试验该小区未产流,其主要原因也是梯地小区前期土壤含水率过低。
4结语
世界多数大国在近一百多年来在供电上采取的模式是集发电、输电、配电为一身的垄断模式。国家在电力供应上大多数或全部由国家垄断经营,广大电力用户就是消费者。这种垄断经营在短时间内使电力工业聚集了大量的资金,电力工业持续发展,同时避免了重复设施的出现,为电网的统一规划和建设提供了有力的支持。
1.2发电竞争
发电竞争模式,竞争主要体现在发电环节,输电和配电仍然采取垄断经营。在电力经营过程中对电力市场进行开放,引入发电企业,在市场中由垄断企业对发电企业生产的电力进行买断,然后由垄断企业统一卖给电力用户,这种供电模式的引入加大了市场中电力的供给量。
1.3电力转运
电力运转模式就是合理的将发电、输电、配电三个过程进行分离,每个发电厂都独立成为一个企业,各个发电厂之间采取公平竞争。市场中的用电大户,可以低价从电力企业直接购买电力,利用统一电网实现电力运转。在电力运转模式中,部分竞争市场、垄断经营市场和竞争市场同时存在。
1.4配电网开放
配电网开放模式的主要特点是:发电、输电、配电三个环节适当分离,三个环节都各自成为独立的经营体系,三者之间存在电力买卖关系。这种经营模式将发电、输电、配电三者打破了传统的电力运营管理模式,电力市场形成了多种商家相互竞争的形式,这不仅增加了发电企业之间的相互竞争,客户可以通过自己的需求来选取适当的发电商,而且电力消费者和生产者之间形成了一种真正的买卖格局,从而为电力显示商品特性提供了便利条件。
2企业多维数据分析具有的特点
2.1多维性
多维数据分析的一个最重要特点就是多维性。多维性不仅体现了人们在观察世界时的多角度,同时也体现了多层次观察。例如,在销售量数据的查看上可以从时间维入手,同时还可以从年、季、月等时间层次上进行查看。对数据进行分层查看,不仅符合事物的客观运行规律,而且也能让用户全面地掌握数据情况。
2.2实时性
实时性不仅满足了用户在时间上对信息的需求,而且可以快速查找多维数据的分析结果,同时实现了实时的接受用户所反馈的数据。
2.3开放性
多维数据分析支持多数据源和系统平台。因此,在实际工作中,不论数据存储量有多大,存储在何处,采取何种方式对数据进行存储,都可以及时获取到存储的数据,并且可以以多种方式将分析结果提供给不通过平台上的客户使用。
2.4可分析性
可以从不同的角度对数据的最大值、平均值、最小值、汇总进行记录和处理,将庞大的有用数据提供给客户,此外还具有数据分析和数据查询等能力。
2.5安全性
确保信息的安全,避免受到欺诈,对用户进行分级管理,数据分析过程中,对于数据分析结果只能提供给相应的用户。如果在实际工作中,存在多个用户共同应用同一个分析时,应当对客户的级别进行合理划分,依据客户所处的安全级别,允许客户查看对应层次的信息。
3电力营销多维数据分析过程
(1)依据决策者和企业业务在信息上的需求,对多维数据分析主题进行确定,在进行多位数据分析时,依据面向主题分析获取信息,从而实现为决策者提供信息的目的。
(2)收集数据,目前供电企业信息系统收集了电量的业务数据,这些数据都存储在各个供电企业的信息系统中,为了使其能够更好的为企业所用,应当建立数据库服务器,采集供电企业中数据。多维数据分析在电力决策的实际应用中,数据采集工作需要依据多维数据分析主体进行,要对数据库系统进行确认,并且在构建面向分析时选择数据库,从数据库系统中抽取、转换企业需要的数据。数据仓库是集成的、面向主题的且在实际运行过程中容易因为时间变化而发生改变的一个数据集合。数据仓库是企业为数据分析工作而设计的,利用数据仓库可以为多维数据分析提供更加稳定且具有针对性的数据,目前许多电气企业都构建了数据服务器。
(3)多维数据模型的建立,多维数据分析需要以多维数据模型为基础,从哪些角度对多维数据模型进行观察,对哪些数据进行分析,可以通过多维数据分析决定哪些数据需要仔细分析历史数据结构来获得,从获取的数据中找到有用的数据构建成适当的度量、维度从而构成高效的多维数据模型。
(4)设计人员依据现有的多维数据模型,选取适当的度量和维度,结合报表利用适当的统计方法,通过图表直观地展现企业的大量了历史数据。
(5)信息,通过灵活的方式将电力企业想要的相关信息直接提供给决策者。
4分析电力影响数据主题
在电力营销决策中,每一个主体都对应一个具体的分析,表示一种营销决策者在工作中需要掌握的信息。本文在研究上将分析主体分为用户情况、购电情况、电价情况、电费回收、设备资产情况等,并对较大的主体进行了进一步划分,针对电力营销的数据分析,应当从宏观到微观,从多个角度对电气企业的数据进行科学分析,为电力企业的各级领导者提供决策信息。因此,在分析上还需要确定分析层次和分析角度。
2煤矿安全生产大数据分析系统
2.1大数据分析的概念大数据分析
是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。
2.2大数据分析系统的建设
根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。
1.引言
目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。
在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。
2.相关研究
目前大数据交易的相关研究中,比较有代表性的有:
(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。
(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。
(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。
(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。
除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。
3.现有大数据交易平台的不足
大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。
3.1 数据供需的错配
现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。
3.2 大数据资源定价困难
大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。
3.3 数据的时效性不强
现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。
4.融合数据分析服务的大数据交易平台设计
本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。
4.1 数据分析服务的概念界定
数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。
4.2 平台设计的总体思路
本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。
图1 平台设计的总体思路
4.3 核心模块的设计
融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。
图2 融合数据分析服务的大数据交易平台的主要模块
系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。
大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。
4.3.1 大数据资源池模块
大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。
(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。
(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。
(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。
4.3.2 数据分析服务模块
数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。
(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。
(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。
(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。
4.3.3 协同模块
协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。
(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。
(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。
图3 交易各方的利益分配
需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。
5.融合数据分析服务的大数据交易平台的优势
本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。
5.1 直接面向应用,从根本上避免了数据供需的错配
在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。
5.2 融合后定价更有根据
在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。
5.3 融合后可提供实时数据
在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。
5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力
融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。
交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。
6结语
本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。
参考文献
[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.
[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.
[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.
[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.
[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.
[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.
[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.
[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.
[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.
[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.
[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.
[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.
一、市场调查
根据一份市场调查显示;卖家本身体现的实力给人与信任可依赖程度越高,用户越愿意来购买商品。
在我评论之前,我申明一下,一家之言只代表一个群体的言论,并不能涵盖每个人的想法与判断,电子商务的数据报告只能说明趋势,并不能完全反应出每个顾客真实的意图。卖家信誉-28%。价格-26%。网站的外观和感觉-16%。网站易用性-15%。商品打折-4%。快递和交付等原因-3%。出现在搜索引擎上-2%。
这是一份市场调查的结果,数据报告对实际商业产生怎样的影响,一个关键问题就是筛选问题的分类方式,他是否独立又相互依存,论点论据之间重合度越低,数据报告能说明的问题越准确。但在这之前首先是样本数据的获取与筛选方法,这里就不追溯了。我只是想根据个人对电子商务的理解,结合这份报告说点事,实际上这一组数据比较接近我个人对网购的理解,首先我们逐条说明这些影响一个网店的因素:
二、卖家信誉
之所以被普遍认为是最重要的,是因为我们网购时并不真实的接触到产品,也并不了解向你推销商品的人是否值得可信,这都是顾客基本的一个需要认知过程,互联网上哪里去确认?当然如果你在一家多卖家的平台上,往往都会有商家信用,评论等功能,很容易通过别的顾客消费情况增加自己对商家的认知。电子商务为什么要打假信用?这只是顺应顾客需求,维护健康秩序所必须做的事情。所以作为卖家不要轻易尝试作假信用,或者你今天逃过一劫,但说不定你明天网店刚做大的时候被强行关闭了。
三、价格
价格是一道屏障,在相互比拼中,有人拼得起,有人拼不起,但如何更好的控制价格,削减顾客成本,不仅为自己赢得更多展示机会,也会赢得更多顾客。价格不会是越低廉越好,最好的平衡体系没有,只有一个方法,如何在综合上为自己赢得市场??有人习惯选一些比如3.99美元的价格,看上去不加拿一分钱顾客潜在心理是这个人没赚钱,但值得说的是商品定价因产品,因地域时间,顾客等因素制宜,现在的顾客不都是傻子,商品有的是比价机会。也有人选择款0利润或者赔本的商品推,但在商品里关联组合商品卖,通过吸引用户购买自己的组合商品或者别的商品来拉动自己销售利润;还有的人也是利用免费赠送或者赔本的方式挂商品,但通过物流利润来保证自己不亏本的方式拉动店铺其他产品行销。
四、网站的外观与感觉
有的人店铺半年一年都是淘宝默认的最烂的那套模板,也不知道为什么淘宝没更新还是咋的,我没卖过商品,还不是很了解那个,但我买东西基本不光顾这样的店铺,店主对店铺的打理程度决定了我对店主的看法,因为信用不是绝对可靠的;产品,服务好不好,全在你的形象与行为上。
五、网站易用性
你能忍受自己在一个网站哗啦了半天结果没搞懂应该怎么买商品吗?我一个朋友,按照我的认识他也是比较理性,属于心思敏捷的,他说他在XX网站搞了好久,都不知道怎么买东西,所以以后都没去过;虽然易用的应用都还是不能被所有人接受,但简单清楚的,没有歧义的每一步流程总是好的。不过这个虽然用户关注的多,但我觉得但凡有点认识的,认识相应语言的人大概都明白很多网购系统的操作流程。这里就不说什么了。
六、促销打折
商品打折也属于价格范畴,只是这里细化成了一个活动,活动可以是定期的比如每周二,三,四晚上限量抢购啊;选2款顾客竞价啊;前面“价格”里也提到的0价格换信用,换软文之类的啊;参与商盟联合促销啊;换季狂甩啊之类的。总之参与打折的,有资本经历运作打折的,只要PV高,顾客肯定不会少,除非你的商品含有价格,性能,服务等水分太大,用什么样的打折方法,最关键的你是销售一时还是为了希望吸引到长久的顾客而去设计。
七、快递与交付等原因
物流过程中虽然有很多不可控因素导致一些商品容易磨损之类的,但物流惧怕承担责任的态度决定了自己的发展框架,假设一下,你的企业就在你的心胸里;你心胸只有100㎡大小,即使你鼓足了劲你也最多到120㎡,这样的容量是没有办法和犹如大海宽广心胸的人比较的。我是没记住你,但有人记住你了,他下次要走物流,肯定不会选你,你损失的不只是一个用户,而是损失了一个未来。
八、搜索排名
我没有看到他们分析提交的数据时基于怎样的搜索引擎,这个分类其实很不准确,虽然数字已经很少了,我自己买商品在淘宝,有啊上都用他们站内的搜索引擎,如果我常用的几个排序商品方法筛选数据你都没排列在前三页,那么即使你离我最近,就住在我隔壁,你服务态度最好,商品也不必别人的差;但你离我还是太远了,我根本找不到你。
对我个人来说,像百度,GOOGLE的网页搜索这样的综合搜索出来的商品,对我吸引力太小了,综合搜索出来的商品并不是他信誉最高,价格最低,服务最好就显示在了综合搜索引擎上,只因为他的页面更适合搜索引擎逻辑而已。商品真正追求的东西不在文本上,而在商品与服务内在的东西里。当然,在同等条件下,不要错过这样一个增加PV与交易机会的机会。
九、总结
目前,数据挖掘技术正以前所未有的速度发展,并且扩大着用户群体,在未来越来越激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中,加快数据挖掘技术的发展。我国在这一领域正处在研究开发阶段,加快研究数据挖掘技术,并把它应用于电子商务中,应用到更多行业中,势必会有更好的商业机会和更光明的前景。
参考文献:
[1]韩家炜.Web挖掘研究[J].计算机研究与发展,2001.
[2]陈宏.消费者数据挖掘系统建立的几个问题.
BI商业智能软件一般都会提供若干数据整合、数据查询、分析与评价、数据可视化及数据分享的手段,但是在BI项目的构建与实施过程中,如果不按照一定的应用组织思路、数据分析模式及分析流程使用这些工具或手段,呈现给最终用户的将是独立的工具集和离散的分析内容,BI系统的整体应用效果将大打折扣。同时,最终用户也了解数据分析模式及数据分析流程方面的一些常用理论和方法,以便形成自己的分析内容组织思路,从而有效开展数据决策分析工作。这方面目前已有多种卓有成效的理论及实践体系,本文基于既往经历的典型BI/DW项目实施经验及对BI软件规划研发和实施经验,给出一种BI系统中的数据分析内容及分析流程组织思路。
1.整体应用模式
在商业智能项目(DW/BI项目)中,通过梳理和优化现有的指标、报表体系和分析体系,同时整合主要的业务系统数据(业务核心支撑系统、财务系统、HR系统、手工维护的数据如行业数据、竞争对手数据等),从而建立面向总部和子公司的业务及IT等部门,集中使用、管理和维护的BI商业智能系统,以强化信息共享、业务分析、辅助管理决策工作。
在系统构建思路(系统整体应用模式)方面,面向数据分析的BI商业智能系统构建工作应达到如下目标:
2.数据分析模式
在数据分析的原理及模式方面,BI商业智能系统可采取PDCA管理循环理论的分析问题的模式,PDCA管理循环理论起初应用于质量检查与保障优化领域,后来在精细化管理及数据分析与决策领域卓有成效。
应用在商业智能项目(BI/DW类)中时,PDCA管理循环理论的P、D、C、A四个英文字母所代表的意义如下:
1)P(Plan)——计划
包括方针和目标的确定以及活动计划的制定,包括业务发展目标(goal),中期计划(plan),年度、季度及月度预算等(budget)。
计划环节的内容触发了BI商业智能系统应当具有导入并集成计划与预算等相关数据的能力这一要求,而计划及预算的制定工作,一般则是通过在专项的计划与预算管理系统中进行。也有个别BI厂商基于自定义的填报方案为客户提供计划和预算的下发与上报等管理功能。
2)D(DO)——执行
执行就是具体运作,实现计划中的内容。在BI商业智能系统需要对及时、准确的反应业务的现状提供必要的、充分的手段,包括围绕业务整体状况及各个业务面构建的Dashboard、报表、查询、预警及其他数据分析及可视化手段。
有比较才能明了现状,有参照才能进行比较。因此BI商业智能系统还应该提供来自内部、外部的参照体系,比如计划数据、历史数据、标杆数据、竞争数据等,以便对业务现状的健康程度有足够的参照依据。
3)C(Check)——检查
就是要检查并总结执行计划的结果,分清哪些对了,哪些错了,明确效果,找出问题。
在BI商业智能系统中,应提供相应的对比和评价手段,如各类计划的达成情况分析、标杆分析、综合绩效评价、EVA评价等手段,以便对一个业务周期的效果进行分析与评价。
该部分的分析粒度应有所提高(如沿着时间、人员等维度),分析的范围相应缩窄,结合管理及业务现状有针对性对总体及关键业务环节设立专项检查与评价手段,检查评价的内容一般集中在业务效率及财务表现等方面。
4)A(Action)——处理
对上文Check环节检查的结果进行处理,管理人员通过仔细分析内在原因之后对检车结果认可、否定或调整改进相关参数及结果。并利用有效的结果针对性的开展相关商务政策及管理措施等。
比如,在既往实施的多个经销商网络管理商业智能项目中,Action环节落实为相应销售政策、奖罚措施及总部向各经销商、商的利润返还计划,同时也落实为对下一轮业务目标计划数据的调整。
3.数据分析流程
1引言
本课题来源于中央广播电视大学教务管理系统的后续开发。随着中央电大在开放式教育思想指导下的教学改革的展开,系统业务量急剧猛增,原有的教学管理系统已经逐渐的满足不了应用需求。所以新一代教学管理系统正在开发中,同时由于教育业务本身的连贯性,导致了新旧系统并行的局面出现。但是由于新旧系统间缺少关联和通信以及必要的规范,导致信息“孤岛”现象严重,而旧系统又恰恰是电大不可放弃的重要投资。同时由于各个系统集成度不足,运行业务的数据库和应用程序也是在不同时期部署的,它们来自不同的供应商,使用各不相同的定制技术。从而面临着如何构建一个强壮的、可靠的,将新旧系统中的分散功能组织成可共用的标准服务来满足业务要求的平台,成为我们需要研究的难点。
通过实践我们可以发现,应用程序始终都与数据有关,企业级的服务程序更是如此。今天,企业应用程序开发中有高达70%的时间都是用于访问不同的数据。因此,对企业信息和数据按业务逻辑进行梳理和抽取,形成企业数据的统一表现实体,该实体可以在全企业范围内得到一致性的使用,是迈向面向服务的体系架构的第一步。因此我们提出了主题数据平台的概念。
2主题数据平台结构
主题数据平台结构见图1。主题数据平台由:主题数据服务层、数据处理构件、数据处理管道、适配器构件组成。
图1数据主题平台的设计构架
主题数据服务层:是底层接口与上层应用的中间层,用于屏蔽底层接口,向上提供统一的服务。有两种角色:一种角色是数据中转站,用于保存临时数据,并等数据传输完整之后,进一步对数据进行分析和处理;另一种角色是主题数据服务层角色,用于保存数据处理的最终结果:主题数据。
数据处理构件:是数据处理的基础构件,每一个数据处理构件都封装了一部分相对独立的数据处理逻辑,包括删除不需要的数据、补充缺少的数据、对数据进行简单的四则运算、代码转换和按主题建立新的数据结构等功能。
数据处理管道:是由多个数据处理构件组成,它合理的组合和安排这些数据处理构件,从而完成复杂的数据处理逻辑。
适配器构件:用于实现异构数据库与数据处理管道的无缝连接,从而能够方便的从异构数据库中抽取或插入数据。
3基于局域网的主题数据平台的实现方案
基于局域网的主题数据平台的实现方案见图2。
图2基于局域网的数据主题平台的实现方案
由于局域网有着:网络传输速度快、网络故障率低、即时性强、服务器固定等优点。所以我们采用:DTS技术、Nmake技术、临时库等技术来解决基于局域网的主题数据平台的实现问题。
3.1DTS技术的应用
采用DTS技术可以实现在局域网中从异构的数据库中提取或插入数据,并能对数据进行简单的逻辑操作。它可以把相对独立的数据处理逻辑封装在对应的DTS包中,从而把公用的数据处理逻辑从数据处理业务中提炼了出来,以备复用。并提供了工作流支持,保证了DTS包中数据处理业务的事务性和完整性。
⑴适配器构件
适配器构件只是一个数据处理通道和异构数据源的连接器,它负责从异构数据源中抽取或者插入数据并将数据转移到数据处理通道中。每一个数据源对应一个或多个适配器构件,每个适配器构件包含在对应的DTS包中。整个DTS包中包含一个原数据源、一个目标数据源和一个数据对应转换任务。将整个数据转换逻辑封装为一个构件,有利于适配器构件的复用。
⑵数据处理构件
数据处理构件封装了数据处理逻辑,这些处理逻辑由数据业务驱动,包括删除不需要的数据、从不同的数据来源补齐缺少的数据、对数据进行简单的四则运算、不同信息系统之间的代码转换等功能。数据处理逻辑按其独立性和公用性被封装在不同的DTS包中,增强了数据处理构件的可变性和复用性。DTS包提供了验证机制这既可以保证数据处理逻辑的正确性,又可以保证数据处理逻辑的事务性。DTS包内包含工作流,可以针对不同的情况做出不同的处理,极大地提高了数据处理构件的复用性,并可对业务性错误做出必要的处理。
3.2Nmake技术的应用
Microsoft程序维护实用工具Nmake是一个32位基于说明文件中包含的命令生成项目的工具。NMake具有丰富的选项,可以完成复杂的处理操作,并有树状文件任务处理结构,并且易于编写,结构清晰,对于实现复杂的数据处理业务提供了很大的方便。采用Nmake技术可以有效的将结构松散的、相对独立的数据处理构件聚合起来,从而能够处理复杂的数据处理业务。
数据处理管道
数据处理管道是将数据处理构件有机的组合起来并封装好,对主题数据服务层提供统一的访问接口,从而把数据服务逻辑与数据处理逻辑分割开来。数据处理管道可以极大地提高数据处理构件的复用率,并把复杂的数据处理逻辑从数据处理构件中抽离了出来,当数据处理业务变动的时候不需要修改构件只要按着业务需求,重新组织构件即可解决问题。Nmake可以按着业务需求轻松地把数据处理构件组合起来形成带有业务逻辑关系的数据处理管道,并且Nmake提供了业务流功能,针对不同的业务需求可以提供不同的业务流支持,从而极大的提高业务本身的灵活性。当业务需求变动时,Nmake可以通过重新组合数据处理构件来完成业务,而不需修改或者重新编写数据处理构件,从而提高数据处理构件的可复用性。
4基于互联网的主题数据平台的解决方案
基于互联网的主题数据平台面临的主要问题是如何通过远程数据传输将互联网的异地、异构的数据源中的数据传输到主题数据服务层中。数据一旦进入主题数据平台的主题数据服务层,就可以使用和基于局域网的解决方案相同的技术对数据进行整理。通过远程数据传输将互联网的异构数据传输到主题数据服务层之后的功能与基于局域网的数据转换接口的功能相同。
中央广播电视大学远程开放教育的教务管理系统是一个跨越44个省面向全国的开放式教育体系结构。该系统包含四级平台、五种角色,由于其独特性中央电大教务管理系统基于互联网的主题数据平台的搭建有如下4方面需求:
1)中央电大各个系统之间、中央电大教务管理系统各级平台之间需要能进行灵活的数据交换。
2)每次交换数据的数据量可能达到GB级。
3)部分数据交换有实时性要求,在规定时间内客户端必须收到响应,不能因为数据传输而推迟业务进度。
4)需要在网络状况不稳定的情况下完成数据交换,因为中央电大教务系统是跨越44个省的开放式教育系统,所以中央电大需要同44所省电大交换数据,在这种情况下网络状况不可预知、稳定性难以保证,但传输仍然需要进行。
4.1SOAP协议与Hessian协议的比较
目前,Web服务技术是解决异构平台系统的集成及互操作问题的主流技术[1]。它所基于的XML已经是Internet上交换数据的实际标准,基于通用的进程间通信协议和网络传输协议屏蔽平台的差异,可以将各种异构环境下的通信及调用请求均统一为标准的Web服务格式[3]。
但是由于SOAP协议的结构问题会使封装的数据膨胀数倍。当传输数据量比较小时,问题不是那么明显,但是当进行大数据量传输时就会导致Web服务的传输性能在实际运用中降低了很多。这对于经常有大数据量数据交换的应用系统来说是不适用的。
CauchoTechnology公司制定的HBWSP(HessianBinaryWebServiceProtocol)[2]在这方面的有所突破。Hessian协议和webservice常用的SOAP协议类似,也是将协议报文封装在HTTP封包中,通过HTTP信道进行传输的。因此Hessian协议具有与SOAP协议同样的优点,即传输不受防火墙的限制(防火墙通常不限制HTTP信道)。Hessian协议的优势在于:它把本地格式的数据编码为二进制数据,仅用一个字符作为结构化标记,HBWSP封装后的数据增量明显小于SOAP封装后的数据增量。并且相对于SOAP,Hessian协议的外部数据表示有3个显著的优势:
1)采用简单的结构化标记。简单的结构化标记减少了编码、解码操作对内存的占用量。编码时,只需写少量的数据,就可以标记结构;解码时,只需读少量的数据就可以确定结构。而且,简单的结构化标记减少了编码后的数据增量。
2)采用定长的字节记录值。用定长的字节记录值,解码时,就可以使用位操作从固定长度的位获得值。这样不仅操作简单,而且可以获得较高的性能。
3)采用引用取代重复遇到的对象。使用引用取代重复遇到的对象可以避免对重复对象的编码,而且也减少了编码后的数据量。
因此使用Hessian协议传输数据量比SOAP协议要小得多。实践证明,传输同样的对象Hessian协议传输的数据量比SOAP协议低一个数量级。因此Hessian协议比SOAP协议更适用于分布式应用系统间大数据量的数据交换。
4.2Hessian协议的实现构架
Hessian协议的实现构架如图3所示:为了实现Hessian构架,设计了下列组件:编码组件、解码组件、通信组件、报告故障组件、组件、调用服务过程组件。
图3Hessian协议的实现构架
首先客户端发出本地请求,组件响应请求依据服务接口,生成客户端存根,并调用编码组件对本地请求进行基于HessianBinaryWebServiceProtocol标准的二进制编码。然后调用通信组件将请求发送给服务器端。服务器端通信组件接收到请求后把请求转发给调用服务过程组件,调用服务过程组件会首先调用解码组件,得到过程标识,将过程标识转给服务器端存根,并依据部署文件和客户端的请求加载服务过程的实现类。然后根据过程标识、过程参数调用服务过程。最后调用编码组件将响应结果进行编码并通过通信组件返回给客户端。
当数据传输、通信发生错误的时候就需要启用报告故障组件,它可以以异常的形式,报告发送端、接收端、或者网络连接发生的故障,并把错误记录以日志的方式记录下来保存在文件中,以备日后查阅。
4.3实现结构
针对教务管理系统互联网传输存在的一系列问题,基于互联网的主体数据平台采用基于HBWSP的轻量级跨平台通信技术实现数据交换,如图4所示。在客户端,应用服务器从主题数据服务层中抽取数据,并按着HBWSP的外部数据表示对本地格式数据进行编码。然后通过internet网进行传输,在服务器端,数据交换的服务负责按照HBWSP的外部数据表示对接收到的数据进行解码,然后再对数据进行分析、处理后把数据插入到服务器端的主题数据服务层中。
图4非持久同步方式的数据交换解决方案
该解决方案的主要特点包括:
1)采用了HBWSP的二进制编码方式解决了异地、异构平台系统的通信问题,并使数据交互具有了一定的实时性。
2)由于HBWSP简洁的编码方式以及编码、解码性能高等特点使数据交换具有交换GB级数据的能力。
3)采用了HBWSP的二进制编码方式有助于缩短整个数据交换所需要的时间。其编码性能高的特点,有助于提高编码速度,减少发送方编码本地数据的时间。其解码性能高的特点,可以减少接收方解码、重构本地数据的时间。从而减少了数据交换的响应时间。
4)采用了HBWSP的二进制编码方式和数据分批传送技术有助于充分利用网络状况良好的时段。可以在网络状况良好的时段尽可能多的完成数据交换。
5)采用了断点续传技术,保证了当网络断连或响应超时导致正在进行的数据交换被中断,在故障修复后仍然可以从中断处开始,继续完成上次没有完成的数据交换的能力。断点的粒度可以调节,可以是一条数据,也可以是多条数据。
6)采用了事务保护机制,把每批要传输的数据定义为一个事务,本批要传输的数据的事务完整性不依赖于已经完成的各批数据,本批数据传输发生错误也不会对已经完成的各批数据造成影响。采用这种方法,可以在数据交换过程被中断的情况下保证数据交换事务的完整性。
5总结和展望
本文在SOA理论的基础上提出了一个主题数据平台的概念,力图把异地、异构的数据综合起来,组成一个强壮的、高可靠性的、可共用的标准数据服务平台。从而解决中央电大新旧教学管理系统数据“孤岛”的问题。我们再进一步针对现实环境:局域网和互联网两种情况进行了分析,并给出了实现框架和技术细节。
但是如何在信息暴露的基础上,对业务应用进行进一步的梳理、划分、整合,从而封装成用户可以随意组合、使用的标准服务,从而实现真正的SOA,是需要我们进一步研究的内容。
参考文献
二、数据挖掘技术在财务分析中的应用
财务分析的主要目的是改善经营管理,提高企业的经济效益,其主要目的是保证会计信息资料的正确可靠性,以保证企业财产的安全性、完整性。比如某生态园林企业需要投入大量资金完善生产基础设施,并保证现场作业的有序,如有必要还要投资于企业产品周边附属产业的发展,因此财务决策的重要性不言而喻,而在财务决策中应用数据挖掘技术十分必要。财务分析中应用数据挖掘的基本流程包括问题识别、数据准备、数据开采及结果表达与解释等四个步骤,图1可将财务分析数据挖掘的过程直观的表达出来:
(一)问题识别
典型的财务决策包括投资决策、筹资决策、成本决策、销售决策等,企业要进行财务分析前必须识别决策问题,明确需要达到的决策目标等,再将决策目标转换为数据挖掘的目标,最后进行准确的数据定义。如企业需要投资企业产品周边附属产业,则需要利用数据挖掘技术明确以下问题:
(1)企业经营中可随时支配的资金额度,需要财务人员建立数据库模型,将可用于投资的资金情况准确、详细的计算出来;
(2)编制投资方案,即与本企业实际情况相结合,考虑具体投资计划,并对投资方案的可操作性进行分析,比如上述园林生态企业需要投资进口园林机械的项目,就需要在投资前对该项目的大小做出合理评估,了解该品牌园林机械在国际市场的占有份额、品质、成本及销售价格等信息;
(3)投资收益分析,投资的主要目的是获得更高收益,因此在数据挖掘过程中,问题识别时必须做出可靠的收益预算。
(二)数据准备
在完成问题识别后,需要根据不同的需求、从相关数据库信息中选择适用的数据信息,即进行数据准备,该过程需要收集大量与企业财务分析相关的数据信息,以保证数据挖掘的真实性、客观性,比如花卉市场分布信息、装饰装潢市场信息、园林设计与市场销售等信息。通常情况下,数据准备又可分为数据集成、数据选择及数据预处理等三个步骤,其中数据集成是把多数据库运行环境中的数据进行合并处理,去除信息噪声,剔除虚假数据;而数据选择则是分辨需要分析的数据集合,进一步缩小数据处理的范围,提高数据质量,从而保证数据挖掘的有效性;数据预处理的主要目的是解决数据挖掘工具局限性的问题。
(三)数据挖掘
当上述准备工作完成后即可进行深入的数据挖掘处理,挖掘过程中需要注意,必须以财务分析核心思想为指导,明确数据挖掘的目的性,数据挖掘的主要内容包括:选择合适的挖掘工具、具体的挖掘操作及证实发现的知识等,其中选择合适的挖掘工具至关重要,限于篇幅此处对神经网络及决策树两种方法进行简单介绍。神经网络是以自学习数学模型为基础的,利用该方法可以很容易的解决具有上百个参数的问题,为高复杂度的问题提供一种相对简单的方法;视经网络既可以表现为有指导的学习,也可以是无指导聚类,不过输入神经网络中的值均为数值型的。实际应用中通常采用该方法进行财务预警分析。决策树法是现阶段应用最广泛的归纳推理算法之一,其提供了一种展示在何种条件下会获得对应值的规则的方法,是一种简单的知识表示方法,在数据挖掘过程中,决策树法主要用于数据挖掘的分类。
(四)结果表达
结果表达即是在处理数据库信息的基础上客观的表达出数据挖掘的结果,以为企业财务分析提供可靠依据。可以说结果表达是数据挖掘的成果展示,其所表达的是最有价值的信息,如结果表达所提供的信息达不到决策的要求,则可重复挖掘过程,直至决策者满意为止。