开源动态   

Hortonworks首席技术官Eric Baldeschwieler:2015年,全球

时间:2012-12-03 11:39:00

中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨大数据技术生态系统的现状和发展趋势,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。

Hortonworks的首席技术官Eric Baldeschwieler曾是Inktomi公司Web服务引擎的技术领导者,雅虎Web搜索总设计师,雅虎Apache Hadoop项目的负责人,曾将20个节点的原型系统发展为42000个节点。他在“Hadoop的现在与未来”的演讲中详细介绍Hadoop架构和最新技术方向。在他看来,如今Hadoop已经发展为一个庞大的体系,包含各类企业级应用部署。2015年,全球数据中将有一半都是通过Hadoop来处理的。Hortonworks Data Platform(HDP)是百分之百开源,未来会通过投资及培训来帮助更多伙伴融入其中进行更多深度合作。

Hortonworks 首席技术官 Eric Baldeschwieler

以下为现场实录:

Apache Hadoop平台上已有4.5万个应用

相信有很多人和组织都有用过Hadoop。对于它的定义,答案是多个的。但作为一个很大的大数据平台,Hadoop可以在全球使用,并解决很大的问题。作为一个开源的应用,Hadoop应用范围更为广泛。

有人问,大数据是什么?首先可以看交易系统,看看现在公司核心业务是什么;并由此产生了多少数据,又有多少数据是公司要处理的。但是一个传统平台并没有这么高的成本效益来处理大数据;企业需要一个很好的平台能够搜集所有有效的数据:有效地处理大量数据,与系统进行交互和通信 —— 这就是Hadoop。那么小型数据平台和大型数据平台又有什么区别?首先水平扩展性,这是一个很有挑战性的问题;必须能偶方便的使用并且能够非常灵活在一些不同的应用中使用,也能在虚拟的云计算中使用的平台。这就是企业所期待的平台 —— 大数据平台。

现在互联网、世界500强、中小创新企业都在某些地方、某些程度上或者在适应平台上都会用到Hadoop,而且会跨越多个不同纵向的层面。现在通过ETL可以从其他的新闻中搜集数据进行处理,把它放在系统上。挖掘数据,这是一个非常普遍的用途。其关注点是,探究数据;用观测数据找到未来的形式,丰富数据的使用。这点经常用于Web应用程序,也是雅虎经常用到的特性。现在Hadoop在4.2多万个电脑上使用了。雅虎每个页基本上的内容都是通过Hortonworks来处理的,这对于雅虎的定制应用和该公司其他一些服务产生了重大的影响。

Apache Hadoop平台上已经有了大量的开源存储和项目,可以处理很大的数据。其两个基本的层面是HDFS(分布式文件系统)和MapReduce(处理平台可以处理非常简单的工作,能够把它进行细分,然后把它分布到成千上万个机器上)。除此以外,还有4.5万个类似的应用,通过开源来处理应用,使用起来非常地方便和快捷。这个平台的特点是:首先,可扩展性;其次,可控制性;第三是可靠性。Hadoop在整个的空间不间断的运行,可以存储各种各样的数据 —— 尤其对于大多数的数据特别是很多公司投资的新数据(非传统传统结构的数 据),而且它必须具有经济效益 —— 这更是不能低估和忽视的一点。在此需要强调一下,大数据意味着高成本,特别是平台扩展和维护时产生的花费。

如果想有效的缩减成本,就需要关注Hadoop的应用和部署。以交易系统为例,包括了网站、网址、数据系统和与客户的交流,下面还有业务情报和分析,这里会用到很多这样的系统。这样的系统在成千上万的公司中都会用到,价值非常之高,也需要用Hadoop。这其中会用到一些新技术,而由此产生的数据与传统的数据结构不会很匹配,这样会影响到其他的应用上的空间或性能和容量,所以就需要Hadoop来高效地把数据搜集起来对它进行处理和精炼。

Hadoop是对现有结构的补充

实际上Hadoop并不是替代了现有的数据结构,而是将现有结构的不足进行了补充,通过实施Hadoop,你可以做公司之前做不了的事情,包括捕获一些新的数据,以成本效益很低的形式来处理数据,并可以把它用在传统的系统架构之上。也许企业以前也能处理这样的需求,但传统成本效益系数要高的多。很多应用都会把数据进行转型和转换用于传统数据库存储,但其在传统的平台上做的效率非常低;所需要的支持也很高,完全无法满足需求。而通过Hadoop就能够增加成本效益,包括企业数据库、数据平台这方面都可以得到更高的效率。

给大家举一个例子:我们曾对比不同行业中,那些愿意承受风险来尝试一些新东西的企业。往往随着技术的成熟,应用更加广泛,并最终带来了新价值。所以作为远景的Hadoop应用,也逐渐得以使用,使自己的业务能带来更多优势的转型。但技术怎么能实现这样的转型?一定在刚开始有很多成功的案例,使用起来非常地容易。另外Hortonworks会给予培训和支持,建立良好的生态系统,更好的帮助Hadoop在各个企业中应用。

现在我们希望能够把Hadoop更好地分销,大家可以在Hortonworks网站上访问这个项目并下载。如果没有比较好的分销和分散将来肯定会成为问题的,因为部署和实施上会出现一些需要帮助和处理问题。我们采用了软件捆绑的形式,这样在计算机上会非常容易地部署。当然,选择一个比较好的版本之后再把它们捆绑在一起比较合适。现在已经有一系列的方案出台,而Hadoop在很多企业中的应用案例也可以作为架构来参考。

部署Hadoop会带来各种各样的价值,包括交易价值、社会价值和社交价值等。所以可以利用企业智能工具进行自己的部署。Hortonworks的分销也有了相关的参考架构,同时也有一些机构来支持Hadoop的企业级应用和部署。在我看来,Hadoop将会是未来的大数据的平台,2015年的时候,全球的数据中的一半将会是通过Apache的Hadoop来处理的。另外Hortonworks的使命是为大家提供百分之百开源的Hadoop的平台。我们也会做进一步的投资使它成为企业级的大数据平台,并通过更多的培训来鼓励生态系统开发商能够提供更多生态系统的开发来支持Hadoop的平台。

围绕百分之百开源的HDP营造产业链

我们一直不变的核心Hortonworks Data Platform(HDP)是百分之百的开源,对全球来说都是开源的。大数据的成功,关键在于达到一个临界的质的积累。这也是为什么我们公司支持百分之百的Hadoop开源分布。这样在未来任何一个合作伙伴和供应商都可以在开源平台上合作。现在很多人都在做Apache的Hadoop的标准调整,希望和我们的平台结果对接。但我想未来不管是怎样的状况,我们都不希望把细分。

接下来再看一下未来的投资计划。Hortonworks对Hadoop平台的开发是非常振奋的。Ambari是管理和监测服务的供应商,在4000多个个集群上部署会面临着很多的挑战。新的Apache项目是由Ambari负责的,他做了大量的监测和警戒的工作。现在大家也看到了Apache领域的进展,我们也期待着未来合作伙伴可以有更多的创新。

Hive+HCatalog也是对这个平台充满着信心的,他们在这里面做了ODBC/JDBC的连接。其工具HCatalog正在开发进展中。Hcatalog,使在table的模型下可以使用Hadoop。另外大家可以使用同样的数据,这样从更高层来考虑数据管理流程的时候可以用这样的工具来进行。提供了很多无限的可能性,另外还可以用第三方数据库来在这上面进行处理。

这样就使得更高级别的数据抽取用在Hadoop的平台上,这在未来也会有很大的性能上的提高,因为我们有很多新的文件格式可以产生,另外有很多内部的loop的performance的改进。另外一个公司是HA的解决方案。它完全支持HDFS。Hadoop可以搜集不同的方案让第三方使用。当然也有很多的投资来做创新,这对企业来说是可以使用的,会解决某些市场的需求。另外一个大事是,Hadoop的1.0和2.0的出版的时间。我们经通过大量的测试取得了巨大的成功,2.0版本也基本竣工 —— 这是我们经历多年的研究的肯定。现在Hadoop已经全面铺开了,在雅虎Hadoop2.0已经开始测试。当然这还是早期的技术,只有几家机构包括中国的公司对此比较感兴趣。我想这个产品在未来6个月或9个月之后将会获得更大的成功。所以2.0马上要结束了,而且也引发了很多人的兴趣和创新。当然,我们要更多地关注它的可拓展性以及整个业界的联系,有一些开放的OPI,这样很多人都可以利用它。

从规模的角度来说,设计完全可以支持包含1万台计算机集群。为什么很多企业都愿意采用Hadoop?是因为它能够处理非常大的数据,这对未来的数据需求是非常重要的。但随着数据的增加我们还是面临着挑战。所以每个人、每家企业都因为这个项目来选择Hadoop,主要是因为从大数据的规模的角度来说愿意采用。所以看一下Hadoop的变化,Hadoop2.0改进了拓展性,还有任何的框架上都可以在Hadoop上进行运行;另外,还有一些项目、流、CP包括处理引擎等等;当然还有服务器。Hortonworks还支持其他的框架。这样可一个Hadoop集群可以做以前需要多个群集才能完成的事情。另外还有一个HDFC2.0,实际上它是类似于一个联盟的性质。因为它可以通过多个NameNodes进行拓展,这给存储带来了价值,另外也允许我们新的NameNodes提供新的性能,因为在Hadoop里面会提供新的拓展,我们整个社区在做着大量的创新。

欢迎所有热爱开源的技术人员、DBA、架构师、项目经理、CTO,行业分析师、数据挖掘专家参加国内顶级技术盛会HBTC 2012,也欢迎您将参会感受发给我们!

 

来源:PHPchina

Notice: Constant RUNTIME already defined in /srv/html/srccn/news/config.php on line 15 Notice: Constant ROOTDIR already defined in /srv/html/srccn/news/config.php on line 16 Notice: Constant SITEDIR already defined in /srv/html/srccn/news/config.php on line 17 Notice: Constant DATAURL already defined in /srv/html/srccn/news/config.php on line 20 Notice: Constant VERSION already defined in /srv/html/srccn/news/system/kernel.php on line 17 Notice: Constant COREDIR already defined in /srv/html/srccn/news/system/kernel.php on line 18 Fatal error: require(): Cannot redeclare class mysql in /srv/html/srccn/news/system/kernel.php on line 22