Flavio:基于Hadoop的雅虎云模型演进史

来源:it168 作者:曾智强
  

 

12月2日-3日,以主题为“海量数据掘宝”的Hadoop中国2011云计算大会在北京会议中心召开。本次大会邀请了Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。

 

Flavio:基于Hadoop的雅虎云模型演进史
IT168 Hadoop大会直播专题

 

  说到Hadoop,就不能不提及雅虎,Hadoop的蓬勃发展离不开雅虎公司的不懈努力。雅虎可以说是最早一批互联网公司之一,雅虎搜索曾经风靡一时,其对实时搜索的要求自然要比一般的互联网公司要高得多。

 

Flavio:基于Hadoop的雅虎云模型演进史


▲雅虎公司巴塞罗拉研究院科学家 Flavio Junqueira

  据雅虎公司巴塞罗拉研究院科学家Flavio Junqueira介绍,Hadoop最早起源于早期的adopters YMB和LLFS,在2008年的时候,到了Apache软件基金会,形成了一门单独的科学,Hadoop由此正式产生。在2010年末,Hadoop成为基金会最高等级的项目。其发展也非常迅速,据Flavio介绍,从2009年7月至2011年9月这一段时间之内,其规模增长了几倍,而且这个增长势头还在继续,随着大数据的不断增长,其应用范围也必将越来越广泛。

 

  由于雅虎公司的高工作负载,每天在线搜索数量巨大,并且作为老牌的搜索服务提供商,雅虎公司的数据中心内密集部署了大量的服务器,大量的处理器,以及海量数据和各种高等级的复杂系统以及各种各样的开发工具。如此众多的软硬件工具,给雅虎公司的管理带来了极大的挑战。

 

Flavio:基于Hadoop的雅虎云模型演进史

  在最初,雅虎采用一个类似集群的方式来对各工作机进行管理,用一个专门的管理机来对众多的工作机进行管理。这无疑大大降低了管理的难度,但问题也随之产生。如Master机一旦出现故障,就会导致整个类似集群的工作机无法工作。

 

Flavio:基于Hadoop的雅虎云模型演进史

  不只是管理机故障问题引起连锁反应,单个工作机或者单个工作机与管理机之间的网络出现故障,都会导致部分数据不可用,进而影响整个平台的体验。为了解决这些问题,管理机双机热备模式出现,如下图所示:

 

Flavio:基于Hadoop的雅虎云模型演进史

  如果对备份容灾领域比较了解的人肯定一眼就能看出其弊端。这种类似于双机热备的模式需要数据的实时流通以保证两台管理机之间的数据一致性。那么两台管理机之间怎么互为流通?如何切换等等问题,非常人所想。正是由于这种模式太过复杂,所以雅虎公司随后又推出了另外的一种模式。

 

Flavio:基于Hadoop的雅虎云模型演进史

  这种模式减轻了双机之间的数据流通复杂度,能够有效地满足数据一致性需求,但这种模式却对管理机的工作负载带来了极大的压力,极易出现资源争夺现象。所以为了解决这个问题,雅虎公司有研发出了一种新的模式。如下图所示:

 

Flavio:基于Hadoop的雅虎云模型演进史

  实际上这种模式已经趋向于接近目前我们常说的云计算模式,所有的包括数据存放和计算分析处理的工作都存放在一个统一的资源,进行统一分配和管理。那么这样的话,额外的管理机与备份机实际上有显得有点多余,经过改进,其最终形态浮出水面。

 

Flavio:基于Hadoop的雅虎云模型演进史

  大家可能已经注意到了,实际上这种模式几乎就是我们常说的云计算模型。这种模型有诸多的好处,能够保证网络随时可用,几乎不存在延迟,并且传输成本很低,其技术并没有改变,但显著降低了单点故障所引发的整体效应。

 

 

 

 

 


时间:2011-12-03 19:27 来源:it168 作者:曾智强 原文链接

好文,顶一下
(0)
0%
文章真差,踩一下
(1)
100%
------分隔线----------------------------


把开源带在你的身边-精美linux小纪念品
无觅相关文章插件,快速提升流量