时间:2023-03-14 15:20:31
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇大数据解决方案范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
中图分类号:TP309 文献标识码:A 文章编号:1009-3044(2013)27-6217-03
1 认识大数据
相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”
什么是大数据?
早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。
随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。
而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。
2 大数据应用的现状分析
最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?
一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。
Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。
果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。
利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。
随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。
事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。
目前典型的大数据应用领域有:
商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。
公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。
政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。
3 大数据解决方案的现状分析
以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。
虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。
于是革命爆发了!
哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。
驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。
IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:
2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。
这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。
于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。
怎么办?
很多人立即想到了另外一个热词:“云计算”。
IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。
EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。
然而事实真的如此吗?
让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:
面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。
IBM给出的解决方案是:
首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。
其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。
而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性,能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。
总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。
可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。
4 结束语
大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,海量的数据需要足够存储来容纳它,快速、低廉、绿色的数据中心将成为这一切的关键。
然而大数据并不意味着整合的、集中式的服务器架构已走向了末路,相反,大数据所带来的规模效应,使得我们越来越需要更加高效可靠的大型整合的混合负载服务器,巧妙地整合和适当的集中,将成为大数据解决方案里重要的一种思想和方向,特别是针对关键行业的核心数据,高安全、高可靠、高稳定将始终是使用者的首要考虑。
参考文献:
在技术方面,内存计算技术的成熟,使得企业实时分析海量数据成为可能。Hadoop技术的完善,为非结构化数据分析提供了可能。
在大数据解决方案方面,不能不提软硬件一体机。这两年,具有简化IT、降低IT运维成本优势的软硬件一体机越来越受到供应商和用户的青睐。值得一提的是,当前的软硬件一体机中,很多都是大数据解决方案:最早推出软硬件一体机的甲骨文公司的第一款软硬件一体机产品Exadata数据库一体机就与大数据相关,甲骨文后来推出的Exalytics商业智能一体机和大数据一体机都是用于数据分析的;被SAP视为革命性的产品SAP HANA属于内存计算一体机,其最大的优势在于可实现海量数据的实时分析;IBM今年推出的PureSystem系列一体机中,就有PureData;微软与惠普联合推出的BI一体机,也是用于数据分析的……
尽管市场已经非常火热,但是当前大数据市场应该尚属于启动阶段,因为大部分用户对大数据仅仅有想法而没有真正的行动,而他们对于大数据分析的需求是显而易见的。相关的解决方案也有待完善,特别是针对非结构化数据分析的解决方案。
IBM PureData
作为IBM PureSystems专家集成系统家族的新成员,PureData能够帮助企业在几分钟内完成对PB数量级大数据的管理和分析,高效获取洞察力,从而实现企业市场、销售等各部门业务目标的快速推进,并帮助各行各业的企业解决几大难题:如何利用更简便、经济的方式分析业务数据,了解客户购买行为,减少客户流失,开展需要大量数据支持的市场推广活动以及实时发现欺诈行为。
不同于其他数据系统,PureData能够将系统安装和配置的时间从24天减至24小时,将复杂的分析时间从数小时骤降至数分钟,并实现在单个系统上管理100多个数据库的卓越性能。通过PureData系统,企业得以在传统IT环境或云环境中为业务用户提供高性能的数据服务,在不到10天的时间里完成Web应用的部署,而同样的任务过去至少需要6个月才能完成。
针对特定工作负载,PureData共有三个型号,分别是PureData System for Transactions(PureData事务系统或PureData交易系统)、PureData System for Analytics(PureData分析系统)和PureData System for Operational Analytics(PureData运营分析系统)。
目前,60多家ISV(独立软件供应商)已经表示将全力支持PureData。PureData将为这种开放的合作模式提供新的平台,激励更多合作伙伴开发适用于PureData的解决方案。同时,IBM还将在这些解决方案和应用的基础上推出数种新模式,涵盖社交业务、资产管理和业务流程管理,全面简化软硬件资源的配置和管理,为20多个行业应用领域提供支持。
IBM大数据平台
IBM充分发挥其整合的优势,结合信息管理、业务分析等领先的软件提出了“大数据平台”架构,为各行业企业选择和构建大数据解决方案提供了全面的技术支持。IBM大数据平台突破了传统数据仓库和数据管理理念,能够为企业组织提供实时分析信息流和因特网范围信息源的能力,让这些企业实现更为经济、高效的大数据管理,并为在此之上的业务分析奠定坚实的基础。
IBM大数据平台的四大核心能力包括Hadoop系统、流计算、数据仓库和信息整合与治理:
·IBM在Hadoop系统领域的代表产品是InfoSphere BigInsights。IBM将其在数据管理上的丰富经验与Hadoop开源平台高效整合,使得BigInsights相比普通的Hadoop开源工具的可用性、可管理性、安全性得以大大提高,成为最主要的静态大数据分析工具和平台;
·IBM在流计算领域的代表产品是InfoSphere Streams,它是目前业界独有的流数据处理技术。InfoSphere Streams能够在诸如气象信息、通信信息、金融交易数据的管理中动态捕捉信息,进行实时分析,为静态数据的处理提供有效补充。
·IBM在数据仓库领域的代表产品是在线交易型数据仓库InfoSphere Warehouse和分析型数据仓库Netezza。Netezza可将大量数据整合到统一平台上,计算能力高达TB级。
·信息整合与治理是IBM在业界独有的方法论和技术,其代表产品是Optim和Guardium。近期推出的Guardium 9能够将如DB2这样的传统关系型数据仓库和基于Hadoop的分布式存储系统进行统一管理,并提供完整的数据生命周期管控。
微软SQL Server 2012
微软SQL Server 在市场上有着良好的口碑,是全球使用较为广泛的数据库与商业智能产品。微软SQL Server提供了对混合IT环境的支持,全面支持私有云和公有云,并可实现平滑迁移,满足企业实现数据库以及应用扩展的需要。
作为云就绪信息平台,SQL Server能够满足企业关键业务应用环境所提出的高稳定性、高性能、高安全和易管理等需求,同时提供全面的商业智能及数据仓库解决方案,帮助企业更好地挖掘数据背后的知识,提供强大的工具实现并展现数据分析结果,且能根据企业需要实施个性化的云以及大数据解决方案。
作为微软的信息平台产品,SQL Server在数据处理与分析市场一直处于领导地位。SQL Server是全面的数据库、数据仓库、商业智能解决方案。它不仅提供全面的满足OLTP处理的功能,而且提供多种组件以满足不同规模客户的多种需求。它是第一个带有商业智能全套组件的数据库产品,在数据分析,特别是OLAP领域有着极好的口碑。
针对大数据,SQL Server具有自己本地以及云端解决方案,与微软强大的商业智能组件以及前端展现方式相结合。
国泰君安证券股份有限公司已经借助微软SQL Server 2012提升了数据分析能力,实现了对用户的精准服务与趋势跟踪。国泰君安是目前国内规模最大、营业范围最宽、机构分布最广的证券公司之一。基于以往使用 SQL Server 产品的良好经验,以及客户数据建模、多维分析与钻取、动态报表分析与展现等领域的应用需求,国泰君安选用微软 SQL Server 2012来搭建新一代的零售客户BI分析系统。国泰君安充分利用新一代 SQL Server提供的对大数据量的数据分析及计算能力,结合Power View及PowerPivot 的易用性,更高效、更自主地发现业务数据的变化及趋势,提高针对零售客户的业务洞察力,优化以客户为中心的证券服务。
SAP实时数据平台
SAP实时数据平台是一套紧密集成并优化,专为应对当今企业数据管理的最新挑战的领先技术平台。
凭借革命性的创新产品SAP HANA与业界领先的Sybase数据管理产品,SAP实时数据平台这套全方位集成、实时处理的平台,在包括数据交易、迁移、存储、处理和分析等在内的信息生命周期的不同阶段,不仅能够帮助企业用户管理海量数据存储,即时处理高速流量数据,实现智能数据流动,数据可视化消费,而且还可以帮助用户大大降低基础架构的复杂性,在满足应用基本的设计和蓝图管理需求的同时,为下一代大数据应用和分析提供卓越性能,持续保证对云计算和移动应用的平台支持,从而有效降低成本。
值得一提的是,所有这些平台功能的交付,都将在尽可能不影响客户现有应用的前提下进行。
作为SAP实时数据平台的核心,SAP HANA独具创新性,并已得到市场的充分验证。SAP HANA不仅能帮助客户以快10万倍的速度获取和传递信息,还将为企业信息系统提供强劲动力,通过技术创新促进业务发展,最终帮助企业以全新的思路拓展业务,达成卓越绩效。
Teradata Aster大数据综合分析平台
Teradata Aster大数据综合分析平台是业内首款集成Teradata Aster以及Apache Hadoop的大数据解决方案,整合了MapReduce和Hadoop的技术优势。
作为卓越的企业级平台,Teradata Aster大数据综合分析平台使用了业内独有的SQL-MapReduce接口语言,以及全面的MapReduce 分析功能库。该分析库内嵌50多项预建的MapReduce功能,提供开箱即用的图形、文本、行为、营销分析,以及更多分析功能。
作为一个真正采用混合架构的平台,Teradata Aster大数据综合分析平台包含Aster Database、Aster SQL-MapReduce和Apache Hadoop。由于深度集成了Aster与Apache Hadoop平台,用户无需接受复杂的培训即可通过SQL-H连接器和SQL-MapReduce使用标准SQL访问Aster和Hadoop数据进行分析平台。
与市场上其他典型平台相比,该平台的数据吞吐量及分析速度可分别提高19倍及35倍。
Oracle Exadata X3 Database In-Memory Machine
Oracle Exadata X3 Database In-Memory Machine是Oracle Exadata数据库云服务器的最新升级产品。
Oracle Exadata X3 Database In-Memory Machine是甲骨文云平台的关键组件。Oracle Exadata X3-2和X3-8 Database In-Memory Machine均可在闪存和随机存储器(RAM)中存储多达数百TB的压缩用户数据,几乎可以消除由磁盘驱动器减速而产生的读\写功能运维费用,从而使Exadata X3系统成为应对云计算中不同类型和不断变化的工作负载的理想数据库平台。
行业概述
近年来互联网发生了巨大的变化,移动互联网、社交网络、电子商务大大扩展了互联网的疆界和应用领域。互联网行业在大数据技术浪潮中的异军突起,也将为整个信息技术产业带来新的机遇。一方面,大数据会催生对IT产品与解决方案更多的需求,将涵盖从硬件、软件到信息服务等多个层面;另一方面,越来越多的互联网公司正在通过云交付的模式,将自身对于大数据集的存储、计算与分析能力开放给第三方,使得数据即服务(Data as a Service)成为影响产业格局的新一代业务模式。”
方案架构
曙光互联网大数据平台解决方案从逻辑上分为硬件层、存储层、计算层和其上支持的各种业务模型。其中硬件平台统一为整合计算和存储能力的存储服务器,服务器之间通过以太网互相连接。这种不再需要门类繁多的存储设备和服务器类型的设计可以大大简化管理和建设的复杂程度。存储层存储上层业务中的结构化数据和非结构化数据。结构化数据保存在关系数据库中,网页信息等非结构化数据已Key-Value的形式保存在NoSql存储系统中。计算层负责将存储层中管理的数据转化为上层应用所需要的数据集,包括数据存储、关键字快速检索等。业务层则可以利用大数据平台提供的存储和计算资源,这些资源都可以以资源池的方式呈现,以多租户的形式提供给上层的应用。
曙光互联网大数据平台逻辑结构示意图如下所示:
首先,科学出现了新的形态。现代科学之父伽利略是个里程碑式的人物,正是伽利略明确地将实物实验和数学推理方法引入到了科学研究之中,科学才得以系统而迅速地发展。从那时起,科学家们开始以实物实验和数学推理的方式认识自然世界,科学因此形成了两种形态,其一是实物实验形态,其二是数学推理形态。随着科学发展到今天的大数据时代,一些科学家和工程师离不开借助计算机手段研究事物,科学出现了基于计算机的第三种形态——计算形态。各个学科的边界变得模糊,科学研究的范式有了新的变化。以前学科分化越来越精细,但是科学发展到今天,信息科学、纳米技术、生物科学和生命科学、认知和神经科学被公认为最具革命性的学科领域,这四种科技的整合,将对人类社会产生深刻的影响,并可能再次改变我们人类的物种。学科在高度分化的基础之上开始走向学科之间的渗透和融合,特别是开始走向自然与人的融合。基于计算机的整合是当今科学发展与突破的必由之路。但是如何整合却是仁者见仁智者见智之事。
其次,技术的高速发展带来了日益严重的社会问题。比如生命科学中的克隆技术直接挑战人类社会传统的伦理问题;对于自然界的无节制索取,带来了日益严重的能源危机和生态环境恶化危机等。此外,物质生活的丰富与网络的言论自由带来了日益高涨的民主与平等的社会诉求。这些问题可能直接源自高速发展的科技,以致于我们的精神与理解出现相对滞后。诸多危机与问题要得到根治,除了需要加快人类智慧文明发展,还需要科技与科学教育的进一步高度发展,此所谓解铃还须系铃人。科学史上,科学家们为人类积累了丰富的化解人类危机的智慧与知识。
最后,一方面“科教兴国”得到普遍共识,人们开始懂得在科学教育之信息化方面投入大量的人力和物力;另一方面人们对技术的发展给生存环境构成影响认识不足,主要表现在看不到现代教育技术的革命性影响潜力,或者在现代教育技术面前感到茫然。这种状况除了造成设备因为闲置而带来的严重浪费现象之外,还限制了我们破解当今科技与科学教育难题的思考与方法。
为了解决诸多危机与冲突,需要探讨各种可行而有效的解决方案。通过分析大数据时代的科学教育的现状不难发现,如果只是从局部进行个别改动,问题难以有效地得到解决,当今的科学教育问题要想从根本上得以解决,必须运用系统观念,从整体上改变或者构建科学教育体系,换句话讲,需要从整合的角度才能提出可行的解决方案。
数字科学家计划
针对大数据时代人类面临的诸多危机,人们提出了一些对策与良方,其中影响最大的是国际21世纪教育委员会在向联合国教科文组织(UNIESCO)提出的21世纪教育的四大支柱策略:(1)学会认知(Learning to know):培养学生学会运用认知工具求知,学会发现问题,学会探究知识,学会构建知识。即培养学生认知方法,引导学生通过发现、探究和意义构建的途径获取知识,培养学生的继续学习能力。(2)学会做事(Learning to do) :既要学会实践,也要学会创造。重视建造可供学生参与的环境,激发学生兴趣,使学习者通过环境的交互作用,通过实践,通过做事获得知识和能力。(3)学会合作(Learning to together) :要培养学生学会与他人共同生活,就要学会合作生活,合作学习,从过去的集中教学方式到个别学习方式,到现在提倡的协作学习。(4)学会生存(Learning to be) :学会生活、学会做人、学会自身的发展。既要传授知识,还要注重能力和高尚情操的培养。
在科学教育领域之中形成了一种强调亲自动手学习科学的潮流。在美国、法国、英国、加拿大等国的国家科学课程改革方案中,科学探究被列为课程目标和课程体系的关键而基本的要素。“学习必须是主动的”已成为国际上基本的教育理念。其中影响较大的有“做中学”、“Hands-on”(动手做)、“Minds-on”(动脑做)、“STEM”(科学、技术、工程、数学)等科学教育实践。这些科学教育实践旨在使学生以科学的方法学习知识,强调学习方法、思维方法、学习态度的培养。
这些先进的科学教育理念与实践推动了科学教育的创新与实践。但是实践表明,一个好的理念要想转化为教学行为,往往需要一个较长时期的培训与转化过程,这个过程是艰难的,特别是对于教师和学生需要具有一定的专业理解能力。能否综合上述先进的科学教育理念,提出一种直观、易懂而且有效的科学教育模式的推广方案呢?数字科学家计划(E-Scientist Project, ESP)给出了一种大数据时代下科学教育模式的推广方案。
所谓数字科学家计划,就是一种大数据环境下以提高每一位学生科学素养水平为宗旨,以探究式教学为鲜明特征,以科学思想、科学方法和数据挖掘方法为核心,播种未来科学家种子的教学模式的推广方案。
数字科学家计划主要有两方面特征,其一,数字科学家是一种科学教育模式符号,以“科学家”符号将抽象的科学教育理念人物化和直观化,即准确地表述了现代的科学教育理念,也便于师生理解与实施。榜样的力量是无穷的,虽然科学不能解决人类所有的问题,但是科学家们为我们积累的知识、思想、方法、科学精神在过去和将来都是破解社会难题的重要途径;其二,强调发挥大数据环境下第三种科学形态的育人功能,这是当今科技与科学教育创新的重要切入点。
数字科学家的教学模式是在WebQuest(基于网络的主题探究)模式的基础上改造而成的。主要有以下五个模块:(1)核心问题:WebQuest的核心是设置一个开放性的问题。这个问题设定了WebQuest的清晰目标,鼓励学生回顾原先掌握的知识,激发学习者进一步探索的动机。(2)任务指南:提供一个“脚手架”,引导学生设计、经历和体验专家的思维过程。“脚手架”将令人望而生畏的探究项目打碎成若干个片段,引导学生研究较为复杂的科学问题。(3)海量资源:创建一些到其他互联网站点的链接来共享网络资源。通过运用多样化的互联网资源,可以为不同学习水平或不同学习方式的学生提供信息资源。(4)实施“做中学”:要提供高层次的思维指南,体现“做中学”的教学理念,保证动脑和动手的教学方式落到实处。(5)交流与评价:WebQuest一般用量规提供了自我评估的标准,提示学生已经学到了什么,并鼓励把这种探究的经验扩展到其他领域。评价人员可以是教师,也可以是家长和同学。
数字科学家计划产生于笔者主持的北京市教育科学“十一五”规划课题《数字科学家计划:基于数据探究理论的物理选修课程建设与研究》(2010年立项),已经在北京景山学校、北京一零一中学、北京师范大学亚太实验学校等学校展开实验。该项目在课题阶段探讨了校本特色选修课程的建设,但是随着课题研究的深入开展,数字科学家计划已经不再局限于校本选修课程,开始运用到正规的物理课堂教学;也不仅局限在物理学科教学,已经开始运用到小学高年级的科学课程与教学;还不仅局限在学校科学教学,已经开始运用于北京市东城区青少年科技馆的科普性质科学课程,并配合教学,于2013年11月成功地举办了北京市东城区“数码探科学”大赛。大赛令人耳目一新,引起了学者和教师的广泛关注。著名教育家顾明远先生在颁奖会上讲到,这次大赛让人们看到了大数据环境下的教学实践,学生们在数码探究中有模有样,学到了科学思想、科学方法,体验到了数码探究的乐趣。
经过三年的探索与实践,数字科学家计划已经从课题研究转向项目推广的初期阶段。初步建设了数字科学家网站,形成了一种大数据环境下的科学教育模式,也形成数字科学家课程的教师培训经验,还形成低、中、高端数字环境装备下课程实施经验,已经具备了在更大范围试验与推广的条件。
数据探究理论——数字科学家计划的基石
探讨破解大数据时代的科学教育难题的途径涉及大而复杂的社会问题,仅凭经验而没有理论的指导是难以理解与完成的。但是数字科学家计划已经形成了一些基本的概念与教学原理。这些基本概念与教学原理构成了所谓的数据探究理论。数据探究理论是数字科学家计划的基石。
信息(Information)是数据探究理论的逻辑起点。何谓信息?这是一个复杂而神奇的概念,学者们有着不同的见解,美国数学家和控制论创始者维纳不得已这样定义信息:信息就是信息,既非物质,也非能量。笔者考虑到人的因素,对信息进行了如下的定义:信息既不是物质,也不是能量,而是物质的波-粒二像性与人相互作用的存在形式。
数据(Data)是数据探究理论的另一个重要概念。数据是载荷或记录信息而留下的明确印迹。数据可以是数字、文字、图像、录像,也可以是计算机代码等。对数据背景的解读是获取意义的一种途径。数据背景是接收者针对特定数据的意义准备,即当接收者了解数据序列的规律,并知道每个数据或数据组合的指向性目标和含义时,便可以获得数据所载荷的意义。观察数据或者数据挖掘就是对数据背景的解读过程。数字科学家计划的核心环节在于信息观测、数据挖掘和数据价值与交流。
探究式教学是一种以科学探究为基本特征的教学模式,其实质是引导学生通过类似科学家的探索过程理解科学概念和科学本质。依据科学的三种形态,将探究式教学分成实物实验探究、数学推理探究和数据探究。所谓数据探究是一种基于计算机的探究式教学,是提高学生数据素养水平的必要途径。数据探究与其说是一种适应大数据时代的手段和途径,不如说是大数据时代的一种生活理念和生活态度。
数据探究在教师观、学生观、学习观和评价观上均具有新的内涵。简单介绍如下:(1)教师是数据探究的促进者与合作者。(2)学生是具有创造能力的学习主体。数据探究应该把学生置于一个有社会意义的团体中,培养“共生性”与“交互性”,体验创造的意义和价值。还应该体现STS教育,强调人对自然、社会、人生的责任和义务。(3)数据探究是一个建构的、社会化的综合体验过程。学习者总是依据已有经验、心理结构和信念来选择一些信息或者数据,从中经过数据挖掘得到推论,并根据推论来构建关于世界的认识。(4)评价是开放、多元的反馈过程。数据探究评价认为学习是一种建构独特意义的过程,注重对于探究过程的评价,关注评价的开放性与多元性。
首先,科学出现了新的形态。现代科学之父伽利略是个里程碑式的人物,正是伽利略明确地将实物实验和数学推理方法引入到了科学研究之中,科学才得以系统而迅速地发展。从那时起,科学家们开始以实物实验和数学推理的方式认识自然世界,科学因此形成了两种形态,其一是实物实验形态,其二是数学推理形态。随着科学发展到今天的大数据时代,一些科学家和工程师离不开借助计算机手段研究事物,科学出现了基于计算机的第三种形态——计算形态。各个学科的边界变得模糊,科学研究的范式有了新的变化。以前学科分化越来越精细,但是科学发展到今天,信息科学、纳米技术、生物科学和生命科学、认知和神经科学被公认为最具革命性的学科领域,这四种科技的整合,将对人类社会产生深刻的影响,并可能再次改变我们人类的物种。学科在高度分化的基础之上开始走向学科之间的渗透和融合,特别是开始走向自然与人的融合。基于计算机的整合是当今科学发展与突破的必由之路。但是如何整合却是仁者见仁智者见智之事。
其次,技术的高速发展带来了日益严重的社会问题。比如生命科学中的克隆技术直接挑战人类社会传统的伦理问题;对于自然界的无节制索取,带来了日益严重的能源危机和生态环境恶化危机等。此外,物质生活的丰富与网络的言论自由带来了日益高涨的民主与平等的社会诉求。这些问题可能直接源自高速发展的科技,以致于我们的精神与理解出现相对滞后。诸多危机与问题要得到根治,除了需要加快人类智慧文明发展,还需要科技与科学教育的进一步高度发展,此所谓解铃还须系铃人。科学史上,科学家们为人类积累了丰富的化解人类危机的智慧与知识。
最后,一方面“科教兴国”得到普遍共识,人们开始懂得在科学教育之信息化方面投入大量的人力和物力;另一方面人们对技术的发展给生存环境构成影响认识不足,主要表现在看不到现代教育技术的革命性影响潜力,或者在现代教育技术面前感到茫然。这种状况除了造成设备因为闲置而带来的严重浪费现象之外,还限制了我们破解当今科技与科学教育难题的思考与方法。
为了解决诸多危机与冲突,需要探讨各种可行而有效的解决方案。通过分析大数据时代的科学教育的现状不难发现,如果只是从局部进行个别改动,问题难以有效地得到解决,当今的科学教育问题要想从根本上得以解决,必须运用系统观念,从整体上改变或者构建科学教育体系,换句话讲,需要从整合的角度才能提出可行的解决方案。
数字科学家计划
针对大数据时代人类面临的诸多危机,人们提出了一些对策与良方,其中影响最大的是国际21世纪教育委员会在向联合国教科文组织(UNIESCO)提出的21世纪教育的四大支柱策略:(1)学会认知(Learning to know):培养学生学会运用认知工具求知,学会发现问题,学会探究知识,学会构建知识。即培养学生认知方法,引导学生通过发现、探究和意义构建的途径获取知识,培养学生的继续学习能力。(2)学会做事(Learning to do) :既要学会实践,也要学会创造。重视建造可供学生参与的环境,激发学生兴趣,使学习者通过环境的交互作用,通过实践,通过做事获得知识和能力。(3)学会合作(Learning to together) :要培养学生学会与他人共同生活,就要学会合作生活,合作学习,从过去的集中教学方式到个别学习方式,到现在提倡的协作学习。(4)学会生存(Learning to be) :学会生活、学会做人、学会自身的发展。既要传授知识,还要注重能力和高尚情操的培养。
在科学教育领域之中形成了一种强调亲自动手学习科学的潮流。在美国、法国、英国、加拿大等国的国家科学课程改革方案中,科学探究被列为课程目标和课程体系的关键而基本的要素。“学习必须是主动的”已成为国际上基本的教育理念。其中影响较大的有“做中学”、“Hands-on”(动手做)、“Minds-on”(动脑做)、“STEM”(科学、技术、工程、数学)等科学教育实践。这些科学教育实践旨在使学生以科学的方法学习知识,强调学习方法、思维方法、学习态度的培养。
这些先进的科学教育理念与实践推动了科学教育的创新与实践。但是实践表明,一个好的理念要想转化为教学行为,往往需要一个较长时期的培训与转化过程,这个过程是艰难的,特别是对于教师和学生需要具有一定的专业理解能力。能否综合上述先进的科学教育理念,提出一种直观、易懂而且有效的科学教育模式的推广方案呢?数字科学家计划(E-scientist Project, ESP)给出了一种大数据时代下科学教育模式的推广方案。
所谓数字科学家计划,就是一种大数据环境下以提高每一位学生科学素养水平为宗旨,以探究式教学为鲜明特征,以科学思想、科学方法和数据挖掘方法为核心,播种未来科学家种子的教学模式的推广方案。
数字科学家计划主要有两方面特征,其一,数字科学家是一种科学教育模式符号,以“科学家”符号将抽象的科学教育理念人物化和直观化,即准确地表述了现代的科学教育理念,也便于师生理解与实施。榜样的力量是无穷的,虽然科学不能解决人类所有的问题,但是科学家们为我们积累的知识、思想、方法、科学精神在过去和将来都是破解社会难题的重要途径;其二,强调发挥大数据环境下第三种科学形态的育人功能,这是当今科技与科学教育创新的重要切入点。
数字科学家的教学模式是在WebQuest(基于网络的主题探究)模式的基础上改造而成的。主要有以下五个模块:(1)核心问题:WebQuest的核心是设置一个开放性的问题。这个问题设定了WebQuest的清晰目标,鼓励学生回顾原先掌握的知识,激发学习者进一步探索的动机。(2)任务指南:提供一个“脚手架”,引导学生设计、经历和体验专家的思维过程。“脚手架”将令人望而生畏的探究项目打碎成若干个片段,引导学生研究较为复杂的科学问题。(3)海量资源:创建一些到其他互联网站点的链接来共享网络资源。通过运用多样化的互联网资源,可以为不同学习水平或不同学习方式的学生提供信息资源。(4)实施“做中学”:要提供高层次的思维指南,体现“做中学”的教学理念,保证动脑和动手的教学方式落到实处。(5)交流与评价:WebQuest一般用量规提供了自我评估的标准,提示学生已经学到了什么,并鼓励把这种探究的经验扩展到其他领域。评价人员可以是教师,也可以是家长和同学。
数字科学家计划产生于笔者主持的北京市教育科学“十一五”规划课题《数字科学家计划:基于数据探究理论的物理选修课程建设与研究》(2010年立项),已经在北京景山学校、北京一零一中学、北京师范大学亚太实验学校等学校展开实验。该项目在课题阶段探讨了校本特色选修课程的建设,但是随着课题研究的深入开展,数字科学家计划已经不再局限于校本选修课程,开始运用到正规的物理课堂教学;也不仅局限在物理学科教学,已经开始运用到小学高年级的科学课程与教学;还不仅局限在学校科学教学,已经开始运用于北京市东城区青少年科技馆的科普性质科学课程,并配合教学,于2013年11月成功地举办了北京市东城区“数码探科学”大赛。大赛令人耳目一新,引起了学者和教师的广泛关注。著名教育家顾明远先生在颁奖会上讲到,这次大赛让人们看到了大数据环境下的教学实践,学生们在数码探究中有模有样,学到了科学思想、科学方法,体验到了数码探究的乐趣。
经过三年的探索与实践,数字科学家计划已经从课题研究转向项目推广的初期阶段。初步建设了数字科学家网站,形成了一种大数据环境下的科学教育模式,也形成数字科学家课程的教师培训经验,还形成低、中、高端数字环境装备下课程实施经验,已经具备了在更大范围试验与推广的条件。
数据探究理论——数字科学家计划的基石
探讨破解大数据时代的科学教育难题的途径涉及大而复杂的社会问题,仅凭经验而没有理论的指导是难以理解与完成的。但是数字科学家计划已经形成了一些基本的概念与教学原理。这些基本概念与教学原理构成了所谓的数据探究理论。数据探究理论是数字科学家计划的基石。
信息(Information)是数据探究理论的逻辑起点。何谓信息?这是一个复杂而神奇的概念,学者们有着不同的见解,美国数学家和控制论创始者维纳不得已这样定义信息:信息就是信息,既非物质,也非能量。笔者考虑到人的因素,对信息进行了如下的定义:信息既不是物质,也不是能量,而是物质的波-粒二像性与人相互作用的存在形式。
数据(Data)是数据探究理论的另一个重要概念。数据是载荷或记录信息而留下的明确印迹。数据可以是数字、文字、图像、录像,也可以是计算机代码等。对数据背景的解读是获取意义的一种途径。数据背景是接收者针对特定数据的意义准备,即当接收者了解数据序列的规律,并知道每个数据或数据组合的指向性目标和含义时,便可以获得数据所载荷的意义。观察数据或者数据挖掘就是对数据背景的解读过程。数字科学家计划的核心环节在于信息观测、数据挖掘和数据价值与交流。
李成刚说,我国已经从网络安全兼管、舆情监控与引导入手,利用大数据实施网络治理,开展网络空间内容监管和应急相应平台建设。“要立足智慧城市建设,推进大数据安全应用。建设对‘防御、监测、评估、治理、运营’五位一体网络安全治理能力。”
发展大数据
要同步构建安全体系
360公司创始人兼总裁、360企业安全集团董事长齐向东表示,大数据技术是一把双刃剑,在鼓励发展的同时,一定要同步构建大数据安全体系,要用大数据方法来解决大数据安全难题。
近来,大数据安全事件呈高发之势。日前,广东警方破获一起高科技经济犯罪案件,17岁的“黑客”攻破了多个商业银行网站,窃取了储户的身份证号、银行卡号、支付密码等数据,带领一批人在网上大肆盗刷别人的信用卡,涉案金额近15亿元,涉及银行49家。
类似的案例不胜枚举。齐向东表示,当前,接入互联网的设备越多,网络攻击的发生机率就越高,网络攻击首先瞄准大数据,攻击造成大数据丢失、情报泄密和破坏网络安全运行。大数据技术是一把双刃剑,既可以造福社会、造福人民,又可以被一些人用来损害社会公共利益和民众利益。如果不能很好地解决安全问题,就会影响发展。因此,各级政府在鼓励发展大数据的同时,要同步考虑构建大数据安全体系。
传统安全思路
无法保障大数据安全
2016年年初,在全球最大规模的企业信息安全领域的会议RSA大会上,与会人员有一个基本共识,传统的防护思路已经无法保障网络安全,用大数据的方法做安全是不争的事实。
传统网络安全的防护思路是划分边界,将内网外网分开、业务网和公众网分离,用终端设备将潜在风险隔离。通过在每个边界设立网关设备和网络流量设备,来守住“边界”,以期解决安全问题。
但随着移动互联网、云服务的出现,移动终端在4G信号、WiFi信号、电缆之间穿梭,网络边界实际上已经消亡了。
但网络攻击者以“分钟级”千变万化。齐向东说:“360安全中心每天发现木马样本近千万个,每天发现的各种软硬件漏洞、网站漏洞超过120个,每一个木马每一个漏洞,都可能攻破预先部署的安全设备和安全软件。”他认为,现在要保障大数据安全,最重要的是要“看得见、管得住”。通俗的说,就是要能在被攻击的时候,能够看见在被谁攻击、如何被攻击;还要能在被攻击的时候,管住核心数据资产的安全,黑客就算进得来,但是带不走。
数据驱动安全
台达电子作为一家在世界各地都有销售网点、生产设备及研发中心的企业,需要拥有高度计算机化的系统以有效处理全球业务。为保护企业资源规划(ERP)、电子邮件服务器、网页服务器和其他各种应用程序服务器等各种重要系统及 IT 应用,数据中心基础设施的可靠度是优先的考虑因素。
此外,可能更重要的是,台达电子决心基于“Smarter, Greener, Together 共创智能绿生活”的理念,打造一个年平均电源使用效率(PUE)低于 1.43 的新机房,以符合Green Grid联盟所定义机房效率的黄金级标准。
新建成的数据中心占地约230平方米,分为冷通道封闭区A/B和热通道封闭区C/D,共有63套机柜,计划在5年内达到240kW~280kW 的IT设备容量。另有独立房间储放两套UPS及多组电池柜。用于显示台达InfraSuite Manager数据中心基础设施管理系统、IT设备使用率和实时视讯监控的2x3 LCD 液晶面板电视墙,可实时、充分地对数据中心能耗进行监控并管理机房设备。
针对新数据中心的改造,台达电子从空调系统、电源、机柜、环境管理系统四大方面入手,具体方案包括:
一、空调系统
诸多因素使得两个旧机房每年耗费大量电力。旧数据中心的PUE值高达 2.01,即每 1kW 的 IT 设备功率消耗,需要等量的非 IT 功率消耗来冷却。新的数据中心为大幅度提高能效达成 PUE 1.43 以下的目标,台达电子采取下列六大对策:
1.冷/热通道封闭及 RowCool 系列机柜式精密空调的应用
冷/热通道封闭设计方案,可避免冷热空气混合,提高冷却效率。搭配贴近热源的台达RowCool系列机柜式精密空调的应用,可以有效移除热点,避免IT设备过热导致宕机。
2.冷冻水式空调系统
相较于传统气冷式空调系统,冷冻水式空调系统可节能三成,以 40RT(冷冻吨)的系统为例,能耗可从 1.25kW/RT 降到0.89kW/RT。
3.变频 HVAC(高压直流)系统
RowCool系列机柜式精密空调的连续可调式风扇转速和水量控制有助于大幅度节能,风扇速度降低一成,估计可节能27%。RowCool 系统中直流风扇及室外机组皆采用变频技术。冷却水塔的风扇采用可变气流量控制,冰水主机和冷凝水泵浦则采用可变水流量控制。
4.自然冷却Free Cooling(空气侧及水侧)
在台北市的天候状况下,一年里有46%的时间可采用自然冷却。温度低于25℃时,空气侧自然冷却自动启动,将外部冷空气导入机房,并将 RowCool机组、泵浦、冷却水塔及冰水机组关机。温度低于15℃时,水侧热交换器及冷却水塔自然冷却系统启动,机房冰水机组则关机降低能耗。
5.数据中心与大楼冰水主机智能同步
台达电子的台北总部大楼获认证为“钻石级绿建筑”,能耗较一般办公大楼低58%。大楼本身配备两套冰水主机系统:
数据中心冰水机组日间关机,使用大楼高效率冰水主机。夜间数据中心冰水主机开机,为数据中心提供冷气。数据中心空调系统与大楼空调系统智能同步,将节能效果发挥到极致。
6.最佳机房温度设定
按国际标准的建议值,数据中心温度变化范围在18~27℃及20~25℃之间。数据中心温度一般虽然设定在符合建议范围的18~20℃之间,但仍有改善空间。
粗略估计,数据中心温度每升高一度可带来2%~3%的节能。依此规则,如把冷信道的温度从18~20℃ 提高到 25℃,数据中心可节能10%~14%。此外,RowCool系列机柜式精密空调的入水温度也可提高进一步节能,通常的做法是将冰水入水温度设定在7℃,如果提高到 13℃,数据中心可节能20%。
除空调系统外,台达数据中心整体基础设施解决方案还应用到高效率电源系统、模块化机柜及数据中心环境管理系统,使整个数据中心各方面都达到绿色节能。
二、UPS电源系统
数据中心对可靠度、效率及扩充性的要求,对UPS电源系统是极大的挑战。新数据中心所采用的台达Modulon DPH 系列 UPS,是新一代全模块化、可热插入、AC-AC 效率达96% 的高性能UPS,其热插入电源模块可支持数据中心从中长期的无缝升级。台达电子的 PDC 及 PDU 也采用模块化设计,例如,其输出断路器可热插入、两组配电盘各可扩充达 42 组断路器。PDC 及 PDU具备优异的电源保护及监控能力,其弹性及扩充性可配合实际的配电需求。
三、机柜及配件
气流管理对于配备中高功率密度机柜的机房极为重要。台达电子的台北总部新机房长期规划机柜功率密度可达10kVA~15kVA。模块化机柜的开孔率达70%以上,可满足高密度IT机房的需求。机柜具有高承载力,静态承重达1420kg或动态承重达1000kg,不占太多宝贵的机房空间。
四、环境管理系统
台达数据中心管理系统(DCIM)系统的 InfraSuite Manager,整合各种设施及 IT 设备于单一平台。环境监测器(EnviroProbe)搭配中央监测站(EnviroStation)可以对能源、电力系统、空调、环境、保全、资产、服务器监控等各种装置,进行无缝、实时及完整的管理。PUE历史纪录可协助 IT 管理人员,分析及了解机房电源使用的效率。
总之,这座采用多种绿色空调、电源、机柜解决方案的节能数据中心已经改造完成并正式投入使用,可望达成以下节能效益:
Sybase公司是数据管理、分析、移动讯息和企业移动领域的市场领导者,目前3.4万个企业客户及财富百强中的91个客户信赖并使用Sybase产品。从1984年涉足企业级软件至今,公司共获得148个数据管理与移动方面的专利,目前尚有185个专利在申请中。公司目前有4000多名雇员分布在60个国家。2007年,Sybase公司收入超过10亿美元,2008年继续增长了10%。在2008年的年度报告中,Sybase持有6.4亿美元的现金。
Sybase赢得了遍及世界各地的忠诚客户群,公司在金融服务、通信、制造和政府部门等主要垂直市场处于领先地位。全球排名前25家银行中的24家、全球排名前50家银行及证券机构的46家,都信赖并使用Sybase技术来进行当天的风险分析。每天,Sybase处理着几十万条从华尔街到东京、从香港到伦敦的实时金融交易数据。
通信行业也正在大量使用Sybase的移动服务,通过700多家移动运营商连接30多亿个用户,每年发送的信息达2000多亿条。利用Sybase公司的数据管理解决方案,处理着数十亿条的通话记录事务。在政府机构,职能部门利用Sybase解决方案移动化了供应管理系统,秒间访问数百万条记录,进行复杂分析,并安全管理关键数据资产。
在零售市场,百货商场使用Sybase企业移动解决方案来改善顾客的购物体验、管理收银系统,并在企业的后端与商场零售点之间提供数据的实时同步。
在信息领域, Sybase是全球领先的信息管理、分析和移动化的软件公司,无论这些信息是在何种系统、网络和设备上。
Sybase在中国
Sybase于1991年12月进入中国,并于1993年成立赛贝斯软件(中国) 有限公司。秉承“用户第一,市场第二;服务第一,销售第二”的市场发展策略,Sybase与用户共担风险,共同前进,稳步发展。如今,Sybase在中国的员工总数已近500人,成为Sybase全球发展最快的海外分支机构之一。为了更好地给国内用户提供一流的技术支持和服务,Sybase已在上海、广州、成都等地设立了分公司,在北京、上海、西安建立研发中心,合作伙伴遍布全国各地。
依靠先进而实用的技术和完善的服务,Sybase不断在中国赢得新的客户,这些客户遍及金融行业、电信行业、政府、交通及能源工业等行业,数量将近2000家。
经过十余载在中国市场不懈的耕耘和努力,Sybase的技术与服务赢得了业界的赞誉和用户的认可,于2007年8月荣膺中国电子信息产业发展研究院、中国信息化推进联盟颁发的中国“IT服务十年成就奖”。Sybase的技术与服务在中国软件市场的双重优势地位得到了进一步巩固和印证。
完善的解决方案
1. 数据管理
许多公司花费数百万美元管理关键信息。随着企业信息量增加,成本和复杂性也开始飚升。更重要的是,许多公司信息是通过硬连线方式接入信息孤岛的。信息被囚困于这样的孤岛上,很难在动态的业务流程中被访问和利用。Sybase公司的信息管理产品能够帮助用户管理复杂的信息,并冲破此类内部障碍,从而保证信息在利用及相关性方面的一致性,并可随时提供经济价值。
从推出第一个C/S架构上的分布式数据库服务器开始,大到数据仓库引擎,小到移动数据库,Sybase凭借领先的技术优势,结合用户的应用模式和需求,推出了适合各种各样的数据管理的解决方案,主要包括Sybase Adaptive Server Enterprise、Sybase ASE 集群版、Replication Server 、Sybase Mirror Activator以及Sybase Real-Time Data Services等。
Sybase的数据管理以“Always Available”(永远可用)信息体系结构为基础,通过可靠、安全和高效的工具,能够帮助企业更好地管理信息,更能够帮助企业从阻碍生产力和效率的传统技术的羁绊中解放信息。
2. 商务智能
Sybase商业智能(BusinessIntelligence)致力于为 新一代商业智能提供核心的解决方案。SybaseBI部门所提供的软件产品与专业服务将数据转化为信息、知识与智慧,以使企业提高市场份额、减少客户流失、向已有客户进行衍生销售等。BI部门与其他领先的商业智能供应商缔结合作伙伴关系,为各类行业市场提供完整的商业智能解决方案,包括金融服务、信用卡市场、保险、银行、通信以及互联网等。
Sybase IQ是全球领先的、基于列的分析服务器,它提供了最智能的方法,使企业能够通过分析,把原始数据变成可付诸行动的措施,从而增加收入、扩大客户群和提高利润。Sybase IQ是唯一能够基于企业的全部信息,按照任意条件,面向所有用户,提供更快速、更准确分析的分析服务器。凭借基于列的核心架构和创新功能,Sybase IQ从多个层面提供了灵活性和可扩展性,能够为最大的数据集、最为复杂的分析任务以及快速增长的BI用户群,提供非凡的查询性能。
Sybase RAP(风险分析平台)是为资本市场公司设计的新一代数据服务技术平台,既可以管理海量数据,又提供实时数据分析所需的速度。它可使资本市场公司及时全面地洞察市场风云,作出更好的低风险的交易和组合投资决策。美国航空、德意志银行等不同客户都已成功地将数据转换为利润,它们共同的特点就是使用Sybase信息流动解决方案。
Sybase 列式数据库机(Analytic Appliance)是一个集成的解决方案,专门用于高性能和 TB数量级的分析。Sybase列式数据库机结合各类领先的技术,包括 Sybase IQ、Sybase PowerDesigner、IBM Power Systems 和 MicroStrategy。它除了拥有所有量身定制的数据仓库功能外,还具有简单、快捷和经济实惠的特点。
3. 移动商务
显而易见,移动时代已经来临了。然而,许多企业仍在苦苦寻觅如何以最佳方式面向移动性重构自身。您所需要的移动解决方案应当能够随时随地将您的企业系统扩展至移动用户,以保持竞争优势。Sybase及其iAnywhere子公司在移动数据库和 移动中间件市场上占有最大的市场份额,而且,我们的移动服务拥有数十亿以上的注册用户,目前位居全球规模最大的移动应用之列。
Sybase Unwired Platform 是 Sybase 新一代支持企业实现应用程序移动化的体系架构。它提供一系列全面的服务,帮助企业将适当的数据和业务流程移动化到任何移动设备上。Sybase Unwired Platform利用一个综合平台,将 4GL 工具和标准开发环境集成而支持的快速开发、异构设备部署和市场领先的设备管理技术结合起来,从而满足企业的所有移动应用需求。而且,它通过推动企业战略化的移动部署,而非采用小规模或局部移动应用的方法,从而极大地降低了企业的总拥有成本。
iAnywhere Mobile Office强大而灵活的解决方案能安全地将电子邮件和业务流程扩展至移动工作人员的手中。她将对众多基础架构的支持、高度的设备安全性、可用性和高性能集成在一起。
SQL Anywhere所提供的数据管理和数据交换技术,使企业能快速开发和部署基于数据库的应用。为企业量身订制的SQL Anywhere数据库大可支持到数千用户在64位的服务器上使用,小可部署到精致的手持设备上。SQL Anywhere的数据交换技术将企业应用和企业系统的信息拓展到运行着前端关键业务的数据库中。
大数据不一定是复杂的分析
许多人一提到大数据,首先想到的是复杂的数据分析。这让有些希望采用大数据分析工具的用户产生了畏难情绪,也让有些用户产生了误解,认为大数据分析只是那些拥有复杂业务流程和海量数据的大企业的事。市场研究机构麦肯锡的研究人员表示:“要创造新的重大价值,并不一定要采用复杂的大数据分析方法,有时只要能保证数据的可用性或对数据应用进行基本的分析,就能获得所需的重要价值。”
不同的企业或一个企业内部不同的部门对数据分析和数据价值的理解都不相同。企业处于不同的信息化发展阶段,也会设定不同的数据分析目标,采用不同的数据分析工具。正是基于此,戴尔率先提出了大数据成熟度模型。戴尔公司全球企业级解决方案副总裁Cheryl Cook表示:“这一模型已经得到了业内许多分析机构的认可。所有行业以及所有数据应用都适用于此模型。”
如下图所示,大数据成熟度模型分成五个阶段。第一个阶段,数据处于混乱状态,数据存储无章可循,数据难以访问,企业的信息系统处于高风险状态。第二个阶段,实现数据的保留。在这个阶段,企业被动地对数据进行存储。数据虽然经过一定的处理,但还不具有高质量,数据的访问也会受到一定限制。第三个阶段,实现存储的优化。在这个阶段,通过对存储系统的进一步优化以及基于策略的控制与管理,用户可以逐步发现数据的价值。第四个阶段,实现简单的分析。在存储优化的基础上,用户可以进行数据建模和简单的数据分析,对归档数据进行搜索等。第五个阶段,实现复杂的分析。在这个阶段,大数据分析工具将得到充分应用,用户可以进行比较复杂的建模、分析和决策。经过上述五个阶段,曾经杂乱无章的数据也将经历从数据到信息再到知识的转变过程,最终成为企业决策的重要依据。
这个大数据成熟度模型可以解答人们对于大数据应用的几个疑惑。第一,用户使用大数据分析工具,并不意味着一定要进行复杂的分析。举例来说,处于存储优化阶段的用户就可以实现无障碍的数据访问,并能获得所需的数据价值。第二,大数据的应用要经历一个逐步完善的过程,必须循序渐进,先做好数据存储和优化,然后再进行数据分析。第三,大数据解决方案通常包括两个部分:一是大数据保留解决方案,二是大数据分析解决方案。将两类解决方案有机地结合在一起,才能有效降低大数据分析应用的成本,更好地挖掘数据的价值。Cheryl Cook表示,戴尔可以提供上述两种解决方案。一方面,戴尔可以提供针对结构化和非结构化数据的大数据保留解决方案,主要包括存储虚拟化与整合、应用程序优化、数据保护、灾难恢复以及数据保留与管理解决方案;另一方面,戴尔还能提供支持Hadoop、Cloudera等开源软件的大数据分析解决方案。
记者曾与包括大庆油田、太平洋保险公司等在内的一些用户进行过交流。它们目前都没有计划部署大数据应用。“从全球范围来看,大数据应用还处于起步阶段。”戴尔亚太及日本地区商用事业部企业解决方案副总裁Philip A. Davis表示,“与云计算兴起时一样,可能要经过两三年的市场培育,用户才能逐渐接受大数据应用。”
中国东方航空股份有限公司信息部总经理严振红介绍说:“在大数据的概念出现以前,我们就在做客户数据、经营数据的分析工作。但是客户数据库、经营数据库等都是相互独立的,数据不能共享。现在,我们要做的是将这些系统的数据整合起来,统一进行分析。”
Hadoop不是万能的
简单来说,Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop最独特的优势在于为用户提供了一个分布式的、高容错的文件系统和加速数据处理的办法。随着Web 2.0、社交网站的大规模兴起,人们需要一个高效的处理非结构化数据的平台。Hadoop正好可以满足人们的需求。有些人甚至在Hadoop和大数据之间划上了等号。Hadoop能够解决大数据应用的所有难题吗?
“Hadoop是一个复杂的工具套件。如果没有厂商或专业技术人员的帮助,用户自己部署Hadoop是一件十分困难的事。目前,Hadoop的应用并不普及。互联网用户是最早采用Hadoop平台的。”Philip A.Davis表示,“如果想让大数据解决方案充分发挥其作用,就必须搭建一个高效的信息基础架构,实现信息基础架构的自动化、智能化,同时提高其可管理性。”
Hadoop的应用是有一定技术门槛的。如今,许多IT厂商都推出了基于Hadoop的解决方案包,其目的是帮助用户简化Hadoop的部署与应用。Philip A.Davis表示:“戴尔提供的基于Hadoop的大数据分析方案可以将Hadoop的部署周期从原来的两个月缩短至两天。”
VMware全球高级副总裁范承工也认为,由于缺少精通Hadoop技术的专业人才,Hadoop的部署对于用户来说是一件费时费力的事。如今,VMware可以将Hadoop部署在虚拟化架构之上,将部署工作从半自动化变为全自动化,从而减少了人工干预,使得Hadoop的部署变得更加简单,也不容易出错。
“很多中国企业的CIO认为,大数据解决方案是有价值的,但实施起来确实有许多困难。”戴尔全球副总裁、中国区大型企业及公共事业部总经理容永康举例说,“国内懂得在Hadoop上进行开发的专业技术人员非常少。一些金融行业的用户很想现在就部署大数据解决方案,但是苦于找不到既懂Hadoop技术,又懂得金融业务的专业人才。”
Informatica首席技术官James Markarian表示:“在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop跨越不同平台,用户需要将Hadoop作为其IT大环境中的一部分来管理,并通过Hadoop重复使用他们的开发技巧、资产及数据,同时还要统筹管理全部数据。”
在美国市场上,70%的大数据应用处理的还是结构化的数据。从技术的角度看,虽然Hadoop也能处理结构化的数据,但是目前基于Hadoop的大数据分析解决方案主要还是用于处理非结构化的数据。因此,用户处理结构化数据和非结构化数据通常是用两套不同的分析工具。这种混合的大数据处理模式是一种普遍现象。
从未来的发展看,非结构化数据的快速增长是大数据分析的主要驱动因素。从这个角度讲,Hadoop的应用前景还是十分广阔的。
在云计算、大数据时代,企业更需要以互联网的思维方式构建面向未来的分布式应用,这就需要一个全新的技术架构。从这个角度说,FusionCube融合一体机解决方案与面向大数据应用的SAP HANA相得益彰。
“SAP HANA是一个能够充分挖掘和体现大数据价值的解决方案。与传统的数据分析、商业智能解决方案不同,SAP HANA提供了一整套模型和工具,可以通过对大数据的分析预测未来的业务发展,给企业带来新的商机。”任志鹏分析说,“针对SAP HANA,华为提供了一个创新的技术平台FusionCube,将计算、存储、网络有机地结合在一起,并融合了华为分布式存储引擎以及云管理软件,使得大数据的实时分析与处理可以达到更高的水平。”在TPC-H测试中,华为FusionCube 刷新了基于Sybase IQ的集群性能世界记录,充分展示了其融合架构带来的性能优势。
大规模定制是云计算、大数据时代的一个典型特征。许多企业客户都需要厂商提供基于其个性化需求定制的解决方案。今天,针对不同企业的不同需求,华为提供了支持单节点HANA的RH5885方案和多节点HANA的FusionCube方案。任志鹏介绍说:“SAP HANA对基础设施有很严格的要求。华为FusionCube for HANA一体机具备更快的同步写性能、更低延时和更高的读写带宽,以及很好的线性扩展能力。FusionCube可实现一站式交付、家电化安装,并能按需灵活扩展应用,运维非常简单。”
华为FusionCube for HANA一体机已经在许多行业得到了应用。以金融行业为例,FusionCube for HANA在包括银行小微贷项目等在内的新兴业务中得到了成功应用。华为内部还成立了一支技术团队,专门负责支持SAP HANA。
交付“三位一体”
华为进军IT领域后始终坚持“被集成”的策略。因此在IT解决方案的推广过程中,华为与集成商、分销商一直保持紧密合作。华为FusionCube for HANA一体机就是通过富通集团在中国市场上进行销售的。“华为、SAP与富通集团基于FusionCube for HANA实现了三位一体的交付。”任志鹏表示。
“x86+Hadoop”被认为是承载大数据应用的主流平台,其开发和应用生态系统已经得到了市场的验证,但这并不意味着大数据基础平台会呈现一种架构“通吃”的局面。
在IBM看来,Power平台是构建大数据应用的一把“利器”。“大数据是一个跨行业的需求,不仅在互联网公司,传统企业客户,像金融、政府、电信等行业也有非常多的有关大数据的应用。” IBM大中华区副总裁及系统与科技部Power Systems总经理侯淼表示,“Power平台所具有的大内存、大Cache、多线程等技术特征,使之非常符合大数据的应用需求。”
数据仓库、数据挖掘、业务数据库,这些都是Power平台传统的优势领域。在IBM系统与科技部大中华区Power Systems产品总监李红看来,这些既有优势为Power平台在大数据领域的应用奠定了基础。
“首先,大数据应用需要与既有系统进行平滑、无缝的连接和交互。在此基础上,Power平台可以拓展新的需求,例如开源的非结构化数据、流数据的分析等,都可以集成到新的需求中去。在这个过程中,传统方案需要和新方案实现很好的整合,Power平台的价值进一步得到体现。此外,软件生态系统至关重要,对软件以及并发处理等场景的广泛支持(包括DB2、GPFS等)使基于Power的解决方案具备更多优势。”李红告诉记者。
面向数据类型的解决方案
多样性是大数据的一个典型特征,在IBM看来,面向不同大数据类型,大数据应用可分为静态批量大数据处理、实时大数据处理、数据仓库整合、数据集市构建四类,IBM面向这四类应用都有专门的解决方案。“以数据仓库应用为基础,发展出了新的大数据应用场景和需求,例如静态数据的批处理、流数据的实时分析等。 IBM的思路是提供整合的解决方案,帮助用户最终获得完整的数据价值。”李红表示。
在静态大数据解决方案中,Power可支持Open Hadoop、 BigInsights、 Symphony 等大数据解决方案,并能够与传统数据仓库系统无缝集成。李红解释说:“Symphony专门面向计算密集型大数据应用,BigInsight在Hadoop框架上增加了安全管理、工作流等特性,并融入了IBM独特的数据分析、机器学习和文本数据分析挖掘等技术。”