基本信息
- 商品名:云计算 大数据时代的系统工程97871□1190476-电子工业
- ISBN:9787121190476
- 定价:32
- 出版社:电子工业出版社
- 作者:姚宏宇,田溯宁
参考信息(以实物为准)
- 出版时间:2013-01-01
- 印刷时间:2013-01-01
- 版次:1
- 印次:4
- 包装:平装
- 开本:16开
- 用纸:胶版纸
- 页数:200
- 字数:
内容简介
在互联网带来的“大”问题压力下,我们需要全新的思想,通过“积木化”的改变,来重新定义计算资源的使用方式、服务的提供方式,以及社会化大生产的协作过程。云计算带来了这种思想的落实机制,这种机制使我们可以组织资源以服务,组织技术以实现,组织流程以应变。而且,云计算扩大了我们对服务的定义,并带来了一个全新的计算资源管理思路,一种信息技术的系统工程理念和一次信息社会的工业化革命。《云计算:大数据时代的系统工程》以简单平实的语言,将这些思考一一展现给读者,并结合作者多年的实践经验,对云计算涉及的概念、技术,以及将给我们的生活和社会带来的影响等各方面进行了阐述,从一种全新的视角展现了云计算的魅力。
前言序言
什么是云计算
很多人觉得云计算应该是个具体的事物,所以初听到云计算时,总会先问一句:“什么是云计算”?
什么是云计算?问的人轻松,回答的人却很费力,仿佛描绘一种味觉,感觉强烈,却不知如何抓住要领呈给面前的人看个仔细。倘若尽心给出一种解释,或画出一张架构图,听众可能还是一脸茫然,回答的人多半会急得皱眉跳脚,也有人会撂下一句:“你记得是IaaS、PaaS和SaaS即可”。
话虽好说,理却难明。即使听懂了解释,还是有许多人会不知道“云计算”缘何而来,用于何处。
1.
“云计算”一词□早被大范围的传播应该是在□006年。□006年8月,在圣何塞举办的SES(搜索引擎战略)大会上,谷歌的CEO施密特(Eric Schmidt)在回答主持人提出的一个有关互联网的问题时说:“……现在出现了一种新的商业模式……人们还没有意识到这个机遇有多大。这种模式的前提是,数据服务的架构应该在他们称为'云计算'的服务器上,即在某处的云里,如果你有合适的浏览器或接入方式,那么不论你有什么设备,你都可以访问这些数据。”
很多人认为云计算自此出现,因为从此之后各种有关云计算的概念层出不穷, “云计算”开始流行。
但□006年出现的只是“云计算”这个词,仿佛一个幕后工作人员忽然被主持人介绍到台前拿了奖,在媒体长篇累牍的报道下,一夜成名。而实际上,云计算本身无论是商业模式还是技术都已经发展了很长时间,并在实践的过程中逐步演进。在□006年时,云计算本身未必发生质变,但既然人们对云计算的认知发生了质变,所以将其理论化、体系化势在必行。德国政治学家伊丽莎白·诺艾尔-诺依曼(Elisabeth Noelle-Neumann)提出过一种“沉默的螺旋”(spiral of silence)的理论,认为人们在表达想法和观点的时候,如果觉得自己的观点是公众中的少数派,就不愿意传播自己的看法,但如果看到自己赞同的观点受到广泛欢迎,就会乐于公开表示自己的观点或态度。这样,多数派的声音会越来越大,形成一种螺旋式上升的模式。云计算概念的忽然兴起或许就与此相仿。
虽然谷歌为云计算命名,但真正明确云计算商业模式的是□□□。在施密特态度鲜明地提出“云计算”这个词的几个星期之后,□□□推出了EC□(动态计算云)服务,将“云”这个名词包含在内。
□□□是个神奇的公司,销售包括图书、DVD、电脑、软件、电视游戏、电子产品、衣服、家具、计算资源等一切适合电子商务的“商品”。在推出EC□的时候,□□□也面临不少“这个零售商为什么想做这些”的质疑,但CEO贝索斯对商业的概念理解明显要宽泛很多。贝索斯无疑认为不管是“PC+软件”,还是这种从“云”里取得服务的方式,不仅关乎技术的问题,还都是一种“商业模式”。□早时,为了让网站能支持大规模的业务,□□□在基础设施建设上花了很大功夫,自然也积累了很多经验。为了将平时闲置的大量的计算资源也作为商品出售,贝索斯的□□□公司先后推出了S3(简单存储服务)和EC□等存储、计算租用服务。贝索斯表示,“我们认为在某一天这也会是一项非常有意思的业务,所以我们这么做的目的很简单:我们认为这是个好业务。”[1] 虽然媒体认为这是贝索斯安全度过
互联网泡沫之后的一笔冒险赌注,“□□□的CEO想要用他网站背后的技术来运行
你的业务,但华尔街只想他看好自己的店面。”[□] 但EC□确实影响了整个行业,也影响了很多人,当时业界明显受到了震动。
在□□□之前,虽然有不少服务按现在来看都有云计算服务的特征,但即使是谷歌所提供的服务,仍然可以看做是互联网服务意义内的一种商业模式。而□□□推出IaaS(基础设施即服务)之后,仿佛给互联网世界开了一扇窗,告诉人们,还可以这样来运营计算资源,还有一种新的商业模式,叫云计算。而那些与传统互联网服务形似神离的服务模式,也终于可以独立出来,找到自己归属的阵地--云计算服务。
□.
云计算起源于互联网公司。虽然互联网公司给人的印象大多是钱多烧不完,但其实多数互联网公司都很注重成本控制。尤其是早期不少互联网公司都起源于学生宿舍,费用的掣肘使这些公司尽可能合理地利用每一个硬件,□大程度地发挥机器的性能。所以早期的互联网公司都会自己选主板、硬盘等配件,然后进行组装,完成服务器硬件的设计。这种传统沿袭下来,就是现在硬件定制化日趋流行的原因。如今谷歌、Facebook都会自己动手设计和生产服务器,以□少的配件□大可能地支持特定功能需求,并降低服务器的能耗。
对于硅谷工程师而言,超级家电连锁店Fry's或许是□值得逛的“购物天堂”。硅谷有不少Fry's的连锁店,由于Fry's占地面积很大,东西齐全且便宜,理论上一个技术人员可以在这里买到所有的零配件,然后组装一个主板,所以这里很受工程师的欢迎。雅虎的工程师们也曾是Fry's的常客。
□000年,互联网经济处于□□波热潮中。这时全球互联网用户人数已经从1995年的几千万增至数亿,并仍在不断快速增长。快速增长的用户数量,使许多网站感受到了系统支撑的压力。雅虎也一样。当时雅虎经常面临的一个问题是,一个频道设计完成之后,在上线之前测试可支撑一定数量的用户(比如10万人),但第二天一上线就出现达到指标的情况。怎么办?只有增加设备,尽可能提高系统对服务的支撑能力,因此即刻购买设备然后连夜组装机器的情形并不少见。到Fry's选买配件是不少工程师的工作内容之一,当然也是乐趣之一。雅虎的共同创始人之一大卫·菲洛(David Filo)至今还喜欢组装机器,不知道是不是一种习惯使然。
为了支撑业务运转,满足用户需求,服务器的整体性能在不断上升,相应地,服务器的数量也在不断增加。这很自然会引出一个问题,数十台机器可以手动组装维护,上千台机器如何处理?甚至,如果机器数上万呢?人能管理的机器数量始终有限,即使劳作不休,所能承受的负荷也有一定的极限。每一个大型互联网公司,都曾遇到过这个问题:如何管理和维护成千上万台服务器?
很多事情在讲述的时候似乎很有意思,但当时经历的时候会让人觉得绝望。“大系统”的压力对于系统维护工程师而言,就是这样的事情。□000年初,笔者(注:此处指姚宏宇博士。)当时在雅虎公司编程之外做的□多的两件事,现在听起来或许还有些“土”:一件是组装机器,一件是维护机器,而这只是为了保证在足够多且可靠的硬件支撑下,业务系统能够有效应对不断快速增长的用户需求。在当时,笔者加班到晚上十点钟左右是常有的事,然后还要从加利福尼亚州的桑尼维尔(Sunnyvale)开车回家,再和朋友一起找地方吃饭。由于住的地方位于南圣何塞(South San Jose),附近是越南人聚集地,太晚的时间只有越南米粉(Pho)可以吃,于是以越南米粉果腹的时间持续有半年之久,以致现在对“牛肉粉(Beef Pho)”产生排斥感。吃完饭之后回去还要继续工作,凌晨两、三点才能睡觉。美股的开盘时间是东部时间9:30~16:00,这意味着在此之前必须保证交易网站服务的正常运行,所以必须每天早上6点准时起床,来检查系统的运行状态。很多人每天都会收到大量邮件,但早上刚起床就看到上万封邮件和几百条呼叫(Pager)信息,并且全部来自机器的情况并非人人都有体会,虽然是专职于此的技术人员,这种极大的压力状况还是很容易让人产生无力感,持续下去会有崩溃的感觉。怎么办?只有把雅虎财经频道大部分的底层代码进行重写,找回些生活。
现在看来,大量用户带来的大流量的压力,以及大系统的问题不仅对于每一个互联网公司来说仍然普遍存在,而且已经开始越来越多的出现在其他传统企业中。谷歌在1998年时的访问量约为每天1万次,但到□007年时,日访问量已达到5亿多次,机器数量也已经超过50万台。对于大多数互联网企业而言,虽然服务器规模不至于如此庞大,但随着用户规模的增加,少则数百台,多则上千台的服务器仍然对企业的运维管理能力提出了挑战。
对于企业来说,随着系统越来越大,维护人员却不能对应成比例增长--企业要考虑人力成本,还要顾及运维效率的问题--即便如此,雅虎在某一阶段有过半的成本都耗在旧有设备和系统的维护上,而无法把大部分资金投入到新业务的开发中。公司能创造新价值的部分越来越少,创新也越来越少,只能求变。
除了大规模系统的维护之外,海量数据的存储问题同样是互联网公司头疼的问题所在,随着网络技术和服务的快速发展,用户平均在线时间的延长和用户网络行为的多样化,导致各类数据在不断涌现,移动终端的出现更是扩充了网络服务的内容与范围,这些都大大增加了互联网公司需要承载的数据量。大量的用户数据对每一个公司而言都是宝贵的信息财富,但是如果只是购买邮箱存储设备一年就要花费几亿美金的话,每个CEO都会再权衡一下,于是雅虎后来有了Hadoop的研发。
因此,在流量和服务器数量都高速增长的情况下,“一个能够与网页增长速度保持同步的系统”[3]必不可少,这也是谷歌三篇有关分布式的论文*(注:这三篇论文分别是有关GFS(Google File System)分布式存储系统、MapReduce分布式处理技术和BigTable分布式数据库的论文,下文也有所提及。)之所以具有重要指导意义的原因--一切均出自实践。
随着信息经济的发展,许多传统企业现在也在加速向互联网化转型。□初存在于互联网企业的压力也出现于其他组织机构中,对大数据的管理和处理需求也在这些组织中产生。比如一个政府部门,如果考虑到信息中心和各垂直部门的信息资源,可能会有数千台服务器和数百套业务系统需要整合和管理,而且多数分布于不同的地理位置。如何对这些资源进行集中统一管理?
或许,这些组织也可以考虑选择云计算。
3.
对于大多数中小型组织,甚至于个人而言,云计算的魅力来自那些灵活、弹性和随时随处可用的云计算服务,比如□□□的计算资源租用服务,或者一些针对企业和个人的“云存储”服务。这些服务是大多数人与云计算□直接的接触,也形成了他们对云计算的直观认识。但是我们知道,云计算应该包含两方面的内容:服务和平台。云计算既是商业模式,也是技术。
美国加州大学伯克利分校在一篇关于云计算的报告中,就认为云计算既是指在互联网上以服务形式提供的应用,也是指在数据中心里提供这些服务的硬件和软件,而这些数据中心里的硬件和软件则被称为“云”[4]。
云计算服务代表一种新的商业模式,SaaS(软件即服务)、PaaS(平台即服务)和IaaS(基础设施即服务)是这种商业模式的代表表现形式,美国国家标准与技术研究院(NIST)就曾于□011年发布过一份《云计算概要及建议(草案)》 (DRAFT Cloud Computing Synopsis and Recommendations)的报告,对SaaS、PaaS和IaaS等进行了详细说明。很多人认为SaaS必须运行在PaaS上,PaaS必须运行在IaaS上,但实际上三者之间并没有绝对的层次关系,它们都是一种服务,可以有层次叠加关系,也可以没有。
对于任何一种商业模式而言,除了理论上可行之外,还要保证实践上可用。因此,伴随着云计算服务理念的发展,云计算也形成了一整套技术实现机制,而云计算平台则是这套机制的具体体现。
但云计算服务和云计算平台之间并没有相互依存的必然关系。即如果以传统的底层架构,或类似超级计算等实现的服务具备云计算服务的三个特点:大用户群、永远在线,以及随时随地可接入,也可称为云计算;而云计算平台本身在设计上就针对了“大用户”、“大数据”和“大系统”的问题提出了解决办法,这也是在提供云计算服务时会遇到的典型问题;所以,以云计算平台支撑的云计算服务,不仅可以提高服务的效率,而且还会充分发挥平台的能力和优势。
很多人会把服务和平台模糊起来进行介绍,也有很多人因此会混淆对云计算的认知。看到云计算,眉眼之间都觉得熟悉,便以为是旧识,不待招呼细聊,引手就向别人介绍,这是云计算,以前是……
按照“选择性认知(selective perception)”的理论,人们在处理信息时都有一种选择性倾向。人们不可能吸收他们所观察到的所有信息,而只能从接收到的零碎信息中依据自己的兴趣、背景、经验和态度主动地进行选择性接受。因而知识结构、看问题的视角和商业利益的各不相同,就使各个群体对云计算形成了多种解读方式。
从技术角度而言,云计算□早的出身,应该是超大规模分布式计算。比如雅虎为了解决系统对大规模应用的支撑问题,而设计的超大规模分布式系统,目的就在于将大问题分解,由分布在不同物理地点的大量计算机共同解决。但随着技术不断的发展和完善,云计算在解决具体问题时,借鉴了不少其他技术和思想,包括虚拟化技术、SOA(面向服务架构)理念等,所以很多人乍看之下会觉得相似。但云计算与这些技术有根本性的差别,不仅体现在商业应用上,还体现在实现细节上,本书将在之后的章节对此进行较为详细的说明。
我们知道,所有科学的认识都是以一种层次递进、螺旋上升的方式发展的,每一种技术都有其适用的场景和范围,比如量子力学不会否认经典力学在一些物理问题上的作用。所以,对于云计算来说,糅合了各种技术不代表云计算比其他技术更优秀,而是说明云计算技术确实是针对“大用户”、“大数据”和“大系统”发展出来的一种新的实现机制。
另外,为了区分云计算的部署使用方式,现在经常提到的还有“公有云(Public Cloud)”、“私有云(Private Cloud)”和“混合云(Hybrid Cloud)”的概念。
公有云通常是指开放给公众使用的云基础设施。可以是企业、院校、政府机构,也可以是一些合作机构来持有、管理和运营公有云。私有云通常是指为一个客户单独使用而构建的云基础设施,因而提供对数据、安全性和服务质量的□有效控制,并可以控制在此基础设施上部署应用程序的方式。通常,多数中小型企业可以从不同服务商提供的各种公有云服务中受益,而鉴于现在企业所需面对的用户量、数据量及系统复杂度都在快速增长,即便是一个小企业所面临的压力,从过去的大型企业的角度来看也都已经是“大”问题,因此通过建设私有云来应对系统压力、满足业务系统需求,正在成为越来越多企业和组织的选择,并且随着企业规模的增加,私有云建设所能带来的收益也在愈发突显。
从现实情况看,公有云和私有云的区别主要体现在商业应用方面,技术上应该是互通的,区别不大。技术层面□根本的区别是访问权限和访问模式的控制,即可访问的范围决定了“云”的业务性质。如前所述,通常意义下,私有云所面向的是一个组织机构,而非公众,但这界限其实并不绝对和清晰。比如谷歌的云操作系统,对内使用而言是私有云,而对外提供Google App Engine时,就变成了公有云的PaaS服务。混合云也并非半“私有”半“公有”,而是在某一块资源不够的情况下,从另一处借用而已。比如游戏服务提供商Zynga有自己的“云”运行服务,但在用户使用高峰期时,又会租用□□□的IaaS服务。
长远来看,公有云是云计算的□终目的,但私有云和公有云会以共同发展的形式长期共存。好比银行服务的出现,货币从个人手中转存到银行保管,是一个更安全、方便的过程,但也会有人选择自己保管,两者并行不悖。
4.
云计算的一个特别之处,在于从技术上创造性地给出了一种灵活可靠的组织机制,通过将各种资源进行快速调度和组合,来满足不同业务应用的需求。这种不但适用于业务模块,而且适用于底层硬件资源的“积木式重组”思想,重新定义了反映在上层的计算资源的使用方式、服务的提供方式,以及社会化大生产的协作过程,为我们解决互联网带来的“大”问题和创新服务模式带来了一种全新的思路。也就是说,云计算带来了一种组织和实现机制,使我们可以组织资源以服务,组织技术以实现,组织流程以应变。
通过云计算技术的使用,大量的硬件资源可以通过虚拟化技术结合成一个有机整体,然后通过数据传输、负载均衡等技术来相互依赖,相互作用,完成预设功能,形成一个标准概念上的“系统”。这个系统的特征,是在物理上分散,在逻辑上集中,也就是我们说的分布式集中。
比如,当听说□□□EC□云基础设施平台分布在全球7000多个机架上,或者谷歌在全球有将近100万台服务器时,你或许会有些惊讶,因为对于不同地区的访问者而言,相应的服务在使用体验上感受不到任何的差别。对于企业来说,不论有多少台服务器,分布在全国多少地方,只要可以联网,则在资料存储和管理、系统使用和维护上,都可以实现“集中”化。
这种大量资源的逻辑集中,一是意味着通过技术手段充分利用这些资源,我们可以满足“大用户”的需求,解决“大数据”的问题;二是通过对不同资源(硬件、应用)进行调度,我们可以基于一个平台提供多种服务,即各种IaaS、PaaS和SaaS,以及XaaS(一切皆为服务),满足各类用户的需求。
有组织,必然有管理。既然云计算创新性地将大量计算资源组织在一起,协同工作,则云计算必须在信息技术的层面,给出一种针对大规模系统的科学管理办法。这种方法能够解决资源组织管理过程中的各种问题。比如:在增加节点、扩大系统规模的同时,还能保证系统性能的近线性提高。在系统任何一个部分都有可能出问题的情况下,保证系统整体的稳定运行。在面临不同的业务需求时,快速将资源重新组织,以新的架构适应变化。这些都要求云计算创新性地将各种技术组织起来,“调和”实现各种功能。所以,从某种意义而言,云计算是信息技术的“系统工程”。
我们知道,系统总是处在一定的环境背景中,与环境保持着某种程度的质量、能量和信息的交换。一个庞大的信息系统内部会产生多种变化,外部的需求和环境也随之而改变,所以整个系统必须不断自我管理和调整应对变化。反映在应用层面,则是指大量计算资源组织在一起,必须通过系统内部资源的整合来支撑各种应用,并可通过快速重组来应对变化,通用于各种网络服务。为此,作为底层技术支撑的云计算
平台具有六大技术思想:弹性、透明、积木化、通用、动态和多租赁。这六大技术思想的灵活使用,决定了云计算平台可以通过虚拟化技术整合各类软硬件资源,可以借鉴SOA的理念实现系统和硬件层面的松耦合,进行计算、存储和应用的自由调度,以及可以通过负载均衡等方法解决“大”问题。
如同乐高积木模块之间可随意拼接的“松耦合”性,在一个高弹性可迁移的体系架构下,通过工作流引擎等方式,云计算平台可实现硬件资源和应用模块的动态调用。在这种我们称为“积木化”的技术思想下,云计算平台可以将资源和模块重新组合,快速形□□的流程来应对业务需求变化。这样,企业在业务转型或业务拓展时,如果需要底层IT系统提供信息化支持,则只需明确业务流程,即可由云计算平台快速实现业务系统的重构,为业务革新带来新的可能。
可以说,云计算扩大了我们对服务的定义,并带来了一个全新的计算资源管理思路,以及一种信息技术的系统工程理念。
5.
云计算的发展起源自互联网公司,但由于各互联网公司的业务方向不同,也造成了各公司发展云计算技术的路线并不相同,有如不同的技术流派,各有特点。
在互联网普及的早期,□知名的互联网公司有雅虎,□□□、谷歌和eBay四家,其中前三家都有其独特的云计算技术理念。
雅虎以搜索引擎起家,随着商业理念的转变,很快发展到门户网站的模式。早期的雅虎基本上代表了互联网的全部形态,包括服务内容和广告模式等,雅虎一应俱全。所以对于雅虎来说,其支撑平台必须适应互联网上的所有应用,从某种角度而言,这也是所谓云计算平台真正意义的体现。因此雅虎初期在发展大规模分布式系统的时候,考虑□多的是通用性,即支持各种应用,而非存储的问题,因此造成了在一段时期内雅虎在邮箱存储方面成本极高。为解决邮箱存储和搜索效率的问题,□006年初,在邀请道格·卡廷(Doug Cutting)加入之后,雅虎开始推动Apache软件基金会Hadoop项目的发展,并自此成为Hadoop发展的□主要推动力量之一。Hadoop是一个能够对大量数据进行分布式处理的软件框架(其logo如图1所示),主要由HDFS(文件系统)、MapReduce(计算系统)和Hbase(数据库)等组成。 其黄色小象的标识,据说原型是经典儿童读物《霍顿与无名氏》(Horton Hears A Who )里的小象霍顿(Horton)。道格·卡廷起初只是想把Hadoop应用于搜索领域,但当时雅虎负责Hadoop团队的巴尔德施维勒(Baldeschwieler)则认为,雅虎之所以选择Hadoop并将其开源,是因为“意识到Hadoop将成为一种'通用'技术”[5]。不管怎样,Hadoop的发展超出了所有人的想象,□□□、Facebook、eBay等都在使用Hadoop,雅虎基于Hadoop驱动的服务也不止搜索引擎一项。但如果说技术思想,Hadoop却应归属于谷歌派。比如HDFS对应GFS的开源实现,MapReduce对应Google MapReduce,HBase对应Google BigTable。
谷歌早期的业务主要是搜索,所以整个系统的设计主要是为了保证大块(大文件和大数据块)数据的查询和搜索的效率和可用性,所以谷歌早期的技术理念以存储为根本,并在此之上建立所有的体系。□003年,谷歌在SOSP(操作系统原理会议)上发表了有关GFS分布式存储系统的论文,而后又先后于OSDI(操作系统设计与实现会议)上发表了有关MapReduce分布式处理技术和有关BigTable分布式数据库的论文。这三篇论文促成了之后雅虎系Hadoop、HDFS、Hbase等开源技术产品的诞生,以及Facebook数据库系统Cassandra的实现。但由于GFS主要为搜索而设计,不是很适合后来推出的一些新产品,所以谷歌之后的新文件系统在设计时有所改变。
□□□以电子商务为主,所以其底层架构的核心作用就是要保证在线交易的不中断。与GFS、HDFS相比,□□□的存储平台Dynamo更适于“存储相对较小的对象(小于1M)”[6],这使得□□□可以处理更多用途的数据,比如电子商务处理中的购物车信息,以及其他交易系统的数据等。另外在存储数据时,Dynamo采用了哈希算法切分数据,将数据在一个节点“环”内均匀存储,分担压力,与GFS、HDFS“一个主控服务器(Master)+多个子表服务器(Chunk Server)”的构成方式有所区别。虽然□□□的分布式系统不是很通用(针对应用层面而言),但□□□的云计算平台融合了多方的技术,属于混合派。
除此之外,在提供云计算解决方案的厂商中,技术起源比较清晰的还有VMware。VMware成立之初,主要是向企业客户提供虚拟化解决方案,这决定了其技术路径是自单机虚拟化做起,向上发展出更高层面的虚拟化技术来部署云计算平台。在云计算方面,与谷歌、□□□等公司会借助平台技术提供云计算服务相比,VMware当前的定位主要是向企业客户提供云计算平台产品和云计算解决方案,帮助客户构建和管理云。自□008年保罗·马里兹(Paul Maritz)任职VMware CEO后,VMware实施了多项收购行动来强化其云计算战略,以确保自身在“虚拟化和云计算基础架构领域”的领先地位,这包括对应用程序开发框架供应商SpringSource、托管电子邮件厂商Zimba,以及网络虚拟化软件供应商Nicira的收购等。目前看来,借由虚拟化技术实现的各种硬件资源的“池化”,以及在此基础上不断丰富完善的配
置、调度和管理功能,是VMware云计算平台的基本特点。
但如果我们换个角度来看,分布式系统的核心理念,是通过网络将物理上分散的计算资源连接起来解决问题。解决了网络问题,就可以解决分布式系统中的“距离”问题。因此,如果能在总结各方经验的基础上,重新梳理云计算平台在实际应用中遇到的问题,以一种从整体而言更为合理的架构来开发云计算平台,不失为发展和应用云计算技术的一条新途径。
简言之,即以网络协同为基础,在此之上建立资源的调度、存储体系,同时在网络层就解决网络的协同问题,为上层开发打基础。这样,如果我们可以针对“通信”、“存储”和“管理”提供一整套解决方案,即可实现云计算平台的“通用”性。当然,尽管各种“流派”的技术理念和实现方法都不一样,但其目的都是为了解决“大数据”、“大系统”的问题,并为上层业务应用提供支撑,所以在优劣上没有可比性。对于用户而言,适合自己的才是□好的,在选择云计算技术服务时,需要从业务场景、开发能力、以及资金预算等各方面综合考虑。
6.
有些人觉得云计算“云里雾里”,是忽悠。这是一种误解。
首先从服务的角度说,云计算的落地是已然确定的,大家使用到的Saleforce.com的在线CRM应用,苹果的iCloud,谷歌的App Engine,□□□的S3、EC□等都是云计算服务。作为互联网服务的一种延伸,云计算服务或许可被称为Internet □.0。云计算服务很自然有一些互联网服务的特征,但也有自己的特点,形成了新商业模式,比如“按需使用”、“多租户支持”等。这种服务方式已经在用其产生的市场力量影响着人们的生活和工作,影响着企业的业务模式和经营思想,以及社会的方方面面。
比如美国总务管理局(GSA)在将门户网站USA.org迁移至一家公司提供的云服务中之后,网站升级时间从包括设备采购在内的九个月,缩减至□多一天。传统的主机设置下,每月的宕机时间大概为□小时,而在云的解决方案下,宕机时间基本为零。按其旧有设置,美国总务管理局每年要为USA.gov支付□35万美元,这包括共计□00万美元的硬件更新和重新获得软件许可的成本,以及35万美元的人力成本。而在迁移到云服务之后,总务管理局目前在USA.gov上一年支付费用仅为65万美元,这意味着节省了170万美元的所有相关费用。[7]
其次,从技术应用的角度看,云计算平台给出了一种新的计算资源的使用和管理思路。在云计算之前,购买更多更高性能的服务器,是企业应对大用户、大数据问题时的□□选择。而云计算的出现,创新性地以“分布式集中”的方式,将分散的廉价计算资源组合在一起,发挥“群体”的功能,来应对大用户和大数据的压力,从而形成了新的“机器管理机器”的思路,在技术实现上有完整的体系架构。
除去□□□、谷歌、Salesforce.com等互联网企业使用云计算平台构建自己的业务系统不说,在中国国内的各领域中,云计算平台也已经落地使用,服务各类组织机构。比如我们曾帮一个全国性的政府机构构建数据云系统,把分布于全国数百个地市内的业务系统中生成与维护的业务数据,进行集中存储管理,并保证系统整体性能,以及高可靠性和高可用性。也曾帮助某电网公司通过对现有IT系统的部分子系统进行云化改造,实现了对分布于不同地区的业务系统的集中管理和统一调度,以及所有业务数据的统一存储。
因此,不论对于个人生活,还是企业应用,云计算都产生着深刻的影响。一些人认为云计算还有些“虚”,一是因为云计算还处于普及推广的过程中,云计算应用的大量“落地”需要时间;二是因为就公有云而言,很多人或者企业从心理上还没做好接受云计算服务的准备,不放心将数据“存放”在他处。然而,回顾信息技术的发展历史,我们可以发现,不论是从大型机到个人电脑,将电脑带给所有人的阶段,还是从个人电脑到互联网,将信息带给所有人的阶段,新的信息技术从出现到普及应用都有一个渐进的过程。
如同一种进化,社会自身会不断向前推进发展,并因此而产生不同的递进式的服务模式和技术需求。人们对计算的需求,促进了计算机的普及发展;沟通分享的需求,又促进了互联网的诞生。云计算也是一种社会需求推动的结果。在获取知识、不断创新和分享的渴望下,人们对信息服务和产品不断提出新的要求。云计算的出现,一方面解决了系统层面日趋突显的压力问题,另一方面拓宽了网络应用的范畴和创新的可能性,在极大降低人们创造知识和分享知识成本的前提下,进一步满足了人类社会获取、创新、分享知识的需求。因此,云计算是信息社会发展的必然产物。随着应用环境的发展,云计算会越来越普及,带来一个全新体验的信息社会。
通常所说工业革命的意义之一,在于使人们摆脱了生产条件的束缚,极大地解放了物质产品和有形服务的生产力。云计算的出现,也在逐步使人们摆脱使用计算资源和信息服务时的束缚,降低知识获取的成本,也使知识的产生变得更容易、分享变得更方便,革命性地改变了信息产品与知识服务的生产力。或许云计算与蒸汽机、内燃机及电力有同等重要的意义,会带来一场信息社会的工业革命。
现在来看,云计算仍然在发展的过程中,未来会发展到什么高度还未知。我们还在不断摸索和深化对云计算的理解,毕竟对于新事物都有一个听闻而知见的过程。对于现阶段的云计算而言,□需要的支持,□怕的是轻视,或如管窥蠡测地轻下结论。但无论如何,云计算已经对社会生产和生活的一些领域产生了积极的影响,相信随着技术的发展和服务的创新,云计算的时代将会很快到来,并□终影响到我们每一个人。
目录
序言一
序言二 上兵伐谋
自 序
前 言 什么是云计算
□□章 信息需求的新菜谱
"不成功"的产品
新经济的特点
互联网下的"大"压力
云计算的生态系统
创新的新菜谱
第二章 一切皆可为服务
传统软件的"终结者"
SaaS、PaaS和IaaS区别和联系
互联网服务的新方向
新服务的潜力
第三章 云计算之辩
完整的云计算定义
与云计算有关的技术
云计算并非万能灵药
第四章 信息技术的系统工程
集中力量办大事
弹性:蚂蚁雄兵
透明:沙地建楼
积木化:积木重组
第五章 信息系统架构的转变
竖井式的企业信息系统
日趋完善的系统需求
全新的信息系统架构
新型企业信息系统模块介绍
典型业务应用示例
第六章 商业变革的催化剂
零售企业的流程再造
云计算推动企业变革
IT资源使用的新方式
业务整合的新平台
向"服务"转型的新思路
创新增长的新动力
第七章 信息社会的工业革命
解放信息生产力
云计算改变信息生活
云计算推动社会变革
第八章 云计算是谁的机会
中国的私有云发展更快
数据中心应"行业"集中
中国企业的"云"机会
中国"云"企业的机遇和挑战
尾 语 成长中的云计算
引用资料
精彩书摘
Evernote首席执行官菲尔·利宾(Phil Libin)的故事告诉我们,及时且认真查收邮件非常重要。
Evernote是一家笔记软件公司,□简单的解释是,这是一家帮助人们轻松记录、查找和分享“笔记”(包括文字、图像、语音等)的公司,公司的产品是一种在线笔记存储和管理软件。
菲尔·利宾对自己的这款产品有过各种描述,比如“转存大脑记忆的服务器”,“生活内容的谷歌”,或者一个将手机从消磨时间变成节约时间的工具等等;但中心大都集中在一点上,Evernote在尝试帮助人们更好地进行“记”和“忆”。
由于有限的记忆能力,人们会记住很多事情,但忘记的事情更多。大多数人对过往的记忆都不会有太多关注细节。当一个念头或名词闪过脑海,人们有时会被唤起许多相关的记忆,有时却会苦苦思索而不得,比如曾经读过的一段资料的出处,或一张明信片背后的邮寄地址。Evernote的定位就是一个可作为使用者“第二颗大脑”的平台。
Evernote支持通过电脑或智能手机,创建和管理包括文字、图片和音频在内的笔记内容,并支持网页内容剪辑和图片文字识别,用户也可以通过添加“标签”(Tag)来创建自己记忆的“关联点”,然后在需要时通过这个被托管在云端的“第二颗大脑”快速找到各种所需资料。
这种描述很容易让人回想起美国科学家范内瓦·布什(Vannevar Bush)于1945年在其所著《诚如所思》(as We May Think )中提到的一个“MEMEX”的东西。在这个承载了当时人们科学理想的设备中,“人们在其中存储他所有的书、记录和信件,同时可以很高的速度和极强的灵活性完成检索。作为辅助设备,它是人脑的无限扩大……人们已经建立了如此复杂的文明,以至于必须把知识机械化才能从中得到符合逻辑的结论,而不至于因为记忆耗尽而难以自拔。”[6]
布什构想的“MEMEX”似乎更像是一张可用手杆操控档案的、具备存储功能的大桌子。“桌子上有一个透明的平板,可以较长期地存放注释、注解、照片、备忘录等各种材料。把材料放在上面,按下一个按钮就可以对其照相,存到MEMEX的胶片库中下一个空白的位置……”
这样,这个存储器能容纳上百年的资料,包括备忘录、注解和图片,然后通过进行“相关索引”,将相关的项目连接起来,从而可以快速找到所需资料,或发现各类资料之间的相关性。
当Evernote正式推出,向人们提供“笔记”服务时,这看起来就像是一个拉长了周期的制作工序,花了60多年时间把布什的理想描绘、塑造、打磨,然后交由菲尔·利宾呈现出一个清晰的实体。
Evernote目前支持网页浏览器访问,也具有Windows、Mac OSX等计算机操作系统的客户端,同时还支持iPhone、android、BlackBerry、Windows Mobile等移动设备,这意味着在任何一个设备上通过Evernote来保存构思、关注和喜爱的东西之后,人们就可以快速在所有适用设备上来找到他们。
虽然人们现在已经认可这种建立在远端服务器之上的云笔记服务,但在创业之初,Evernote的产品理念并非人人理解,而且差点儿因为缺乏资金而被迫关闭。具有戏剧性情节的是,就在菲尔·利宾打算放弃之时,一个瑞典的用户发来一封电子邮件,表达了对公司产品的喜爱之情,并在邮件的□后说,如果公司需要资金的话他愿意有所帮助[7]。
……
从目前来看,如果我们想要完整的认知云计算,应该从“服务”和“平台”两面去理解,即云计算涵盖云计算平台和云计算服务这两个概念,如图3-1所示。
如前所述,云计算服务代表一种新的商业模式,对于任何一种商业模式而言,除了理论上可行之外,还要保证实践上可用。对于云计算服务来说,要面向海量用户提供永远在线、随时访问的可用服务,而且支持多用户按需获取服务资源,并保证服务的可靠性,就要求底层IT系统能够支持这样的服务模式。
因此,伴随着云计算服务理念的发展,云计算也形成了一整套技术实现机制,而云计算平台则是这套机制的具体体现。
云计算平台在本质上类似一个操作系统,管理着一个“可扩展的网络超级计算机”。这个操作系统通过一些技术将大量分布于各地的计算机通过网络连接起来,使之在逻辑上以整体的形式呈现。在不同的应用需求出现时,系统可快速调动各种软、硬件资源协同工作,完成计算、存储和沟通任务,而用户无需关注实现细节。网络超级计算机的“可扩展”性,就是指根据需要可对计算资源进行添加或者删减,同时这个虚拟的计算机所展现出的性能会相应呈近似线性的变化。
云计算平台和云计算服务的关系,如同底层基础和上层建筑。通过搭建“平台”,可以将大量计算资源集中起来,协同工作,对上层“服务”的运行进行支撑。而“服务”的丰富和扩展,又对底层“平台”提出不断发展的要求。虽然如此,仍需要明确的是,这两者之间并没有必然的对应关系。
云计算服务以商业服务模式为主要的推动力,底层技术平台的选择可以起到辅助和提升的作用,它仍然可以运行在传统的底层架构(非云计算平台)之上。同样,云计算平台强调的是通过先进的技术手段构建全新的基础平台或是改造旧有的底层架构,它可以为所有的应用或计算服务提供底层支撑而并不局限于云计算服务,比如现在很多人正在研究如何把用于科学研究中大规模模拟计算的并行计算框架在云计算平台上实现,又或者将云计算平台用以解决企业面临的海量数据存储或系统管理问题。
尽管如此,由于云计算平台本身在设计上就针对了“大用户”、“大数据”和“大系统”的问题--这也是提供云计算服务会遇到的典型问题,提出了解决办法,所以由云计算平台支撑的云计算服务,不仅可以提高服务的效率,而且还会充分发挥出平台的能力和优势。可以说,云计算平台在目前更适合推广云计算服务,只有二者的完美结合,才能实现在大规模用户聚集的情形下以较低的服务成本,提供高可用和高可靠的服务,从而保持业务的持续发展性和在商业竞争中的优势。
……
我们每个人都同时存在于多个组织结构之中,要承担着不同的角色分工。为了达成一个统一的目标,所谓“组织”必须考虑如何合理、有效地进行规划、分工、协调、制衡等,以期顺利达成目标。
云计算创新性地将大量计算资源组织在一起,协同工作,意味着云计算必须在信息技术的层面,给出一种针对大规模系统的科学管理办法。我们已知面对大规模系统时,单纯人工管理的无力,于是云计算采取了一种自动化管理的办法,即机器管理机器。这意味着在一个大的数据中心里,只需少数人员的巡视就能完成所有的日常维护工作。
美国管理学教授斯蒂芬·罗宾斯将管理描述为“一个协调工作活动的过程,以便能够有效率和有效果地同别人一起或通过别人实现组织的目标”。“效率”是指以尽可能少的投入获得尽可能多的产出,而“效果”是指尽可能达成组织目标。
对云计算来说,这直接指向了从根本上要面临的两个挑战:在增加节点、扩大系统规模的同时,如何保证系统性能的近线性提高?系统任何一个部分都有可能出问题,如何保证系统的稳定运行?除此之外,云计算还面临第三个根本问题,在面临不同的业务需求时,如何快速将资源重新组织,以新的架构适应变化?
作为云计算技术的具体实现,云计算平台应对这三个挑战的就是其三个根本的技术思想:弹性、透明和积木化。而为了实现这三点,云计算平台还包含另外三个技术思想:动态、通用和多租赁。
动态是指,当组织内个体情况发生变化时,可以及时察知信息,进行调整,即“控制”管理来确保系统设计的正常运行;通用意味着,针对不同的业务性质,底层系统都能提供支撑,即便需要调整,也不必大动;而多租赁则保证在底层系统所构建的“云”上,可以支持各种应用,每种应用又都支持大量用户。
弹性、透明、积木化、动态、通用和多租赁,是云计算平台的六大核心技术思想。依此,云计算平台可在实现包括服务器、存储、网络、应用等在内的虚拟化基础上,将事件驱动及协同合作机制相结合,设计出具有自动监控、反馈和处理机制的智能服务管理平台系统,基于这种跨平台、可扩展的系统,对大规模计算资源进行自动化智能管理和监控。而且系统负责对所有服务器上运行的软件服务提供自动部署、自动升级、自动配置、可视化管理和实时状态监控,还可以根据环境和需求的变化或异常情况的出现,对之进行动态调度和自动迁移。
这意味着,对于上层多变的应用需求而言,云计算平台提供了一个行之有效的支撑环境,并实现了IT自动化管理,以机器管理机器。
很明显这是一个系统工程,非单项技术可独立完成,需要综合使用多种技术或架构理念来实现目标。所以说,云计算在技术上的革命性,一是给出了一种资源组织的方法,使整个IT系统的结构发生了变化;二是创新性地将各种信息技术组合起来,完成了一件系统工程的工作。
……
作者简介
姚宏宇,美国威斯康辛大学麦迪逊分校博士,有多年在硅谷从事大规模企业软件和互联网技术的研究、开发和管理工作的经历,现为友友系统公司CEO,中国电子学会云计算专家委员会专家委员,并入选中组部□□□□。
田溯宁,美国德州理工大学博士,中国著名企业家,北京“云基地”创始人,现为中国宽带资本基金董事长,并担任万事达国际组织独立董事,联想集团独立非执行董事,哈佛商学院顾问委员会委员等职。