Informatica但彬:大数据带来大挑战
http://msn.finance.sina.com.cn 2012-03-07 07:02 来源: 《中国经济和信息化》杂志2012年,随着云计算应用部署的加快,大数据带来的挑战将更加严峻。
◎本刊记者 金烨 | 文
伴随着平板电脑、智能手机、微博(http://weibo.com)、SNS网站的出现,越来越多的诸如语音、视频等非结构化数据充斥着人们的生活。
传统商业智能系统在向纵深应用拓展的同时,商业决策已经越来越依赖于数据。而对于任何企业来说,数据都是为其带来商业价值的关键因素。沃尔玛就是最早通过利用大数据而受益的企业之一。
通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在2007年,沃尔玛就建立了一个超大的数据中心,其存储能力高达4PB以上。
根据IDC的报告,未来十年全球大数据将增加50倍。如何存储这些快速增长的、海量的数据?如何对大数据进行分析处理,挖掘出价值?相关的一系列问题成为了所有企业面临的共同挑战。独立企业数据集成软件提供商Informatica中国区首席产品顾问但彬认为,2012年随着云计算应用部署的加快,大数据带来的挑战将更加严峻。
CEI:是什么样的大背景、大环境催生了大数据这种新型的数据模式?
但彬:一个大规模生产、分享、应用数据的时代正在开启,我们每个人都成为了数据的创造者和使用者,微博、社交网络都是最好的例子。代表着大数据时代的Apple、Facebook、Amazon等公司正成为这场变革的推动力量。同时新企业也层出不穷,比如2007年才成立的Dropbox公司,创始人不到27岁,估值已经超过40亿美元,这是一家提供文件备份及共享服务的公司,允许用户在不同平台和设备之间同步并共享文件,Dropbox用户数量超过2500万,每天存储的文件数量2亿多个,苹果公司曾出价8亿美元想收购它,但未成功。
CEI:大数据浪潮正在愈演愈烈,那么大数据的商业价值又是什么?
但彬:企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。不同企业之间最大的显著差别在于新数据类型的引入。那些没有引入新的分析技术和新的数据类型的企业,不太可能成为其行业的领军者。
CEI:大数据可以帮助客户做哪些事情?通过大数据进行用户行为的分析在哪些行业体现得最为成功?
但彬:通过大数据进行用户行为分析只是大数据在一个行业的体现。举例来说,沃尔玛是最早通过利用大数据而受益的企业之一,一度拥有世界上最大的数据仓库系统。一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛多年来数据挖掘的结果显示,在消费者中尿布卖得好的店面啤酒也卖得很好。沃尔玛因此被公认为促进了商业领域数据挖掘的诞生。
而在其他领域,比如美国国家海洋和大气局尝试利用大数据业务协助进行对气候、环境、天气的研究和商业性探索,美国宇航局利用大数据业务进行航天和其他领域的探索。制药企业和能源企业则借助大数据业务进行更多实实在在的研发,药品实验和地球物理分析。《纽约时报》将“大数据”作为一种工具,进行文本分析和网络开发。迪斯尼公司利用它对店面、主题公园和网络资产中的数据进行分析,研究消费习惯的相关性。
CEI:大数据常和云计算联系到一起,这两者之前的关系是什么?
但彬:大数据意味着大资源,这是云计算与大数据的交集,其实也就是意味着,云计算与大数据的关系是两个方向,云计算可以承载大数据,大数据也是可以通过云计算架构和模型来提供解决方案。这样我们就可以清晰地知道,大数据在管理和应用的方向上,可以通过云计算的资源共享、高可扩展性、服务特性来搭建和运营。
现在,各类机构的数据量正在快速增长,这些数据每天在其系统内流动;同时,云中的数据量也日益增加。随着数据量的增加,实时处理这些数据的能力已成为大数据的重要挑战之一。2012年,随着云计算应用部署的加快,大数据带来的挑战将更加严峻。
CEI:大数据时代,云计算如何解决数据在云端的集成与分享、个人数据的无缝连接、数据的跟踪分析和挖掘?
但彬:随着云计算的发展,云数据集成将成为关注重点。而随着越来越多的企业机构转向混合型IT架构,以及云集成任务的业务关键性和复杂性的增加,云数据集成的企业级特性对客户的成功意义非凡。
CEI:从去年开始,众多厂商开始进军大数据并希望从中掘金,但是从目前的态势来看,由于大数据的技术门槛较高,在大数据领域展开竞争的IT公司,大都仍然是在数据存储、分析等领域有着传统优势的厂商,比如IBM、Oracle等。那么Informatica是在什么基础上来做大数据的?
但彬:Informatica有一套完善的技术,可以支持多项复杂的企业级数据集成计划,包括:企业数据集成、数据质量控制、主数据管理、B2B Data Exchange、信息生命周期管理、复杂事件处理、超级消息和云数据集成。通过Informatica单一、完整、开放且经济的数据集成平台,企业机构可以在改进数据质量的同时,访问、发现、清洗、集成并交付数据,来提高运营效率、降低运营成本。
CEI:Informatica数据集成平台上的应用是由合作伙伴提供还是自行开发?
但彬:Informatica平台是全球第一个专为数据集成设计的全面、统一、开放式软件平台。这一开放式跨平台软件可以访问几乎所有类型的数据,并且让这些数据变得可以访问、有意义而且有用处,满足相关人员和流程的需要。通过促进整个企业协作的产品,Informatica不仅可以帮助客户降低成本、加速获得成果,而且能够通过扩展处理各种规模或复杂程度的数据集成项目。2011年6月,Informatica成功地推出了创新的Informatica 9.1 for Big Data,这是全球第一个专门为大数据而构建的统一数据集成平台。
CEI:Hadoop是一个能够对大量数据进行分布式处理的软件框架,Hadoop意味着开源,那么在这种开源的前提下厂商如何盈利?
但彬:用户希望能够以更经济的方式、更好的性能来处理数据,从而能够经济有效地利用快速增长的数据推动业务创新。在这样的背景下,Hadoop获得了快速发展。
Hadoop有两个重要特性,一是经济性,二是可扩展性。2008年,一家电信运营商试着用36万元搭建一个基于x86架构和Hadoop架构的云计算评估平台。在与已有的270万元商用系统跑同样的应用进行性能比较后,他们惊喜地发现,Hadoop平台的数据处理性能增加了约30倍,数据挖掘性能增加了约9倍,而且成本优势将随着数据处理规模的增加而更具优势。
随着企业不断寻求更高的数据回报,对Hadoop开发者将会有更高的需求,技能短缺将继续且很可能加剧。2012年,Hadoop将继续获得牵引力,但在2015年前都不会成为真正的主流。
CEI:除了Hadoop软件架构,元数据和主数据管理也是大数据时代令人较为关注的话题。那么应如何区分两者?它们分别在企业中的作用分别是?
但彬:元数据通常称为“关于数据的数据”,是有效管理、共享和存储信息的一个最重要的成功因素。事实上,元数据管理是数据集成的基础。根据IDC的定义,主数据是指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。
主数据管理是一系列的规则、应用和技术,目的是为了协调和管理与企业的核心业务实体相关的系统记录和系统登录中的数据和元数据。尽管不少公司针对IT体系架构接受以数据为中心的方法并将数据作为一种资产来进行处理,但许多公司未能充分利用他们的数据集成投资从元数据管理中获得额外价值。有效的元数据管理将引导开发整体数据集成的最佳实践。
整个企业范围内不同系统中存在着不同格式的关键业务数据(例如客户、产品、合作伙伴和供应商数据),这种不一致和重复的数据可能会阻碍战略性业务决策的实施。凭借MDM(主数据管理),企业可以获得整合而可靠的数据,从而更易于获得和留住客户,充分发挥高效运营的竞争优势,加快实现并购所带来的价值,支持企业范围内的明智决策。