如何开始学习hadoop

时间:2011-09-06 00:13:06

标签: hadoop mapreduce

我是一名Web开发人员。我有JavaScript,Jquery,Php,HTML等Web技术的经验。我知道C的基本概念。最近我有兴趣学习更多关于 mapreduce hadoop 的知识。所以我在自己的大学里参加了mapreduce 课程中的并行数据处理。由于我没有任何面向Java或C ++等面向对象语言的编程知识,我应该如何学习map reduce和hadoop。我已经开始阅读 Yahoo hadoop教程以及 OReilly的Hadoop The Definitive Guide 2nd.Edition

我希望你们建议我学习mapreduce和hadoop的方法。

8 个答案:

答案 0 :(得分:12)

答案 1 :(得分:5)

您可以从许多不同语言访问Hadoop,并为您设置多个资源设置Hadoop。例如,您可以尝试亚马逊的Elastic MapReduce(EMR),而无需经历配置服务器,工作人员等的麻烦。这是一种了解MapReduce处理同时延迟学习如何解决问题的好方法好好使用HDFS,如何管理调度程序等。

搜索您喜欢的语言并不难;找到它的Hadoop API或至少一些关于它与Hadoop链接的教程。例如,这是在Hadoop上运行的PHP应用程序的演练:http://www.lunchpauze.com/2007/10/writing-hadoop-mapreduce-program-in-php.html

答案 2 :(得分:4)

回答1:

  • 非常希望了解Java。 Hadoop是用Java编写的。其流行的序列文件格式依赖于Java。
  • 即使您使用Hive或Pig,您也可能需要在某一天编写自己的UDF。有些人仍然试图用其他语言编写它们,但我想Java有更强大的主要支持。
  • 大多数Hadoop工具都不够成熟(比如Sqoop,HCatalog等),因此您会看到许多Java错误堆栈跟踪,并且您可能希望有一天能够破解源代码

回答2

  • 您不需要了解Java。
  • 正如其他人所说,取决于您的处理能力有多复杂,这将非常有用。然而,只有Pig和Hive可以做到令人难以置信的数量。
  • 我同意你很可能最终需要编写用户定义的函数(UDF),但是,我已经用Python编写了这些函数,并且用Python编写UDF非常容易。
  • 当然,如果您有非常严格的性能要求,那么基于Java的MapReduce程序将是最佳选择。然而,Pig和Hive都在不断地提高性能。
  • 因此,对您的问题的简短回答是," No",您不需要了解Java才能执行Hadoop开发。
  

资料来源:   http://www.linkedin.com/groups/Is-it-must-Hadoop-Developer-988957.S.141072851

答案 3 :(得分:3)

1)学习Java。没办法,对不起。

2)利润!之后会很容易--Hadoop非常简单。

答案 4 :(得分:2)

听起来你走在正确的轨道上。我建议在家用计算机上设置一些虚拟机,以便开始学习书中所看到的并在VM中实现它们。与许多事情一样,变得更好的唯一方法就是练习它。一旦你进入我相信你将有足够的知识来启动一个小项目来实现Hadoop。以下是人们使用Hadoop构建的一些示例:Powered by Hadoop

答案 5 :(得分:2)

在浏览Yahoo Hadoop tutorial之前浏览Hadoop the definitive guide。 Yahoo教程为您提供了非常简洁易懂的体系结构。 我认为书中没有正确安排这些概念。这使得学习它有点困难。 所以不要一起研究它。首先浏览网络教程。

答案 6 :(得分:1)

我刚刚写了一篇关于这个主题的论文。上面有很多资源,但我想你会在这里找到一些额外的指示:http://images.globalknowledge.com/wwwimages/whitepaperpdf/WP_CL_Learning_Hadoop.pdf

答案 7 :(得分:1)

欢迎加入关于大数据的博客 - https://oyermolenko.blog。我已经和Hadoop合作了几年,在这个博客中想要从早期开始分享我的经验。我来自.NET环境,面临着从一种语言切换到另一种语言的一些挑战。我的博客面向那些不使用Hadoop但具有一些像您一样的主要技术背景的人。我一步一步地想要涵盖整个大数据服务系列,描述我遇到的概念和遇到的常见问题。希望你会喜欢它