有哪些学习Hadoop源代码的好资源?

时间:2011-06-17 12:42:54

标签: hadoop

是否有任何有用的资源可以帮助我学习Hadoop的源代码?我特别想找大学课程或研究论文。

2 个答案:

答案 0 :(得分:26)

如果你在开始时弄脏你的话,研究Hadoop或MapReduce可能是一项艰巨的任务。
我遵循以下时间表:

  1. 从非常基础的MR开始 code.google.com/edu/parallel/dsd-tutorial.html code.google.com/edu/parallel/mapreduce-tutorial.html
  2. 然后前往前两个讲座 www.cs.washington.edu/education/courses/cse490h/08au/lectures.htm MapReduce和Hadoop是一个非常好的课程介绍。
  3. 阅读开创性的论文 http://research.google.com/archive/mapreduce.html及其在更新版本中的改进 http://www.cs.washington.edu/education/courses/cse490h/08au/readings/communications200801-dl.pdf
  4. 然后转到上面给出的U.Washington链接中的所有其他视频。
  5. 尝试使用术语Map reduce和hadoop来查找ORielly和Google RoundTable的视频,以便更好地了解Hadoop和MapReduce的未来
  6. 然后关闭最重要的视频 -
    Cloudera视频
    www.cloudera.com/resources/?media=Video

    Google MiniLecture系列
    code.google.com/edu/submissions/mapreduce-minilecture/listing.html
  7. 与上述所有多媒体一起,我们需要良好的书面材料。文件:

    1. hadooper.blogspot.com上的架构图很适合你的墙
    2. Hadoop:权威指南更多地涉及整个系统的细节 Hadoop in Action是一个很好的阅读,有许多教学示例来学习hadoop的概念。 Pro Hadoop不适合初学者
    3. 来自Apache Foundation的文档pdf hadoop.apache.org/common/docs/current/
      和 hadoop.apache.org/common/docs/stable/
      将帮助您了解如何将问题建模到MR解决方案中,以便总体上获得Hadoop的优势。
    4. Yahoo!的HDFS论文为了深入了解hadoop,研究也是一个很好的阅读
    5. 订阅Commons,MapReduce和HDFS的用户邮件列表,以了解问题,解决方案和未来的解决方案。
    6. 尝试初学者的http://developer.yahoo.com/hadoop/tutorial/module1.html链接到Hadoop的专家路径
    7. 对于任何查询...
      联系Apache,Google,Bing,Yahoo!

答案 1 :(得分:3)

您的问题似乎过于宽泛 - 要在查看源代码时使用资源,您应该缩小您想要学习的内容的重点。这将使您(以及任何SO)更容易找到涵盖该主题的论文/主题。

我已经挖掘了几次Hadoop源代码。通常我需要了解一个非常具体的课程。在这些情况下,并不真正需要外部资源,因为我有类名,所以我只是用Google搜索并找到资源。

如果我开始尝试在更高级别理解hadoop源代码,我将获得源代码和Hadoop: The Definitive Guide的副本,并将其用作参考来理解源代码的更高级别连接

我不会声称这将是一个完美的解决方案。 H:TDG比我拥有的其他hadoop书更具技术性,我觉得它非常有用。 H:TDG就是我的开始,当我找到我想要深入研究的领域时,我会开始专门寻找那些。