我一直关注the awesome Yahoo! Hadoop tutorial,这对于设置虚拟机环境非常有用(本教程的第3单元)。但是现在我被HDFS部分(模块2)难倒了,并且认为如果我有一个特定于Windows的教程可能会更容易。我试过跟this one,但有些步骤并不完全正确。我一直在努力寻找一个适合我在Windows 7机器上运行的好教程,但我有点卡住了。有一个好去处吗? Hadoop似乎非常适合Linux用户,不幸的是我必须使用我的工作笔记本电脑,这是Windows 7.我可以做这项工作还是真的只适用于Linux用户?
答案 0 :(得分:7)
雅虎开发者网络上的Hadoop教程已经过时且存在问题。一半的步骤对我来说根本不起作用(我在Windows 7上运行VMware Player中的图像),而另一半则模糊不清。 Java代码示例编写得很糟糕,无法编译。无论如何,它们都是为旧的Hadoop API编写的。
我放弃了该教程,而是使用了Cloudera Demo VM映像。这预先配置了Hadoop,Pig,Hive,HBase等。我立即开始营业,编译和运行Hadoop作业和Pig脚本没有问题。
Cloudera Demo VM在其主要支持页面(https://ccp.cloudera.com/display/SUPPORT/Cloudera的+ Hadoop + Demo + VM)下载均为64位。如果你正在寻找像我一样的32位版本,你可以在这里找到一个:https://downloads.cloudera.com/cloudera-demo-0.3.7.vmwarevm.tar.bz2
这个有一个稍微旧版本的Cloudera发行版(CDH3u0)在Ubuntu 10.10上使用Gnome桌面运行。我安装了Eclipse来编译我的Hadoop作业,但没有尝试安装Hadoop插件,我听说这是有问题的。第一次,我错误地通过系统的Update Manager将Cloudera发行版更新到CDH3u3,这搞砸了我的Hadoop配置。我不知道如何正确地重新配置它,所以我刚从原始图像开始。
要让Pig运行,您需要先设置JAVA_HOME变量:export JAVA_HOME=/usr/lib/jvm/java-6-sun
不幸的是,在熟悉Hadoop的Java开发人员朋友向我指出Cloudera发行版之前,我浪费了大量时间使用旧的YDN教程。
答案 1 :(得分:2)
我对hadoop完全不熟悉,老实说,我发现cloudera教程和信息完全没有用。给IBM的人一个机会,他们非常有帮助,他们对初学者非常友好。几乎所有核心hadoop应用程序的分步说明以及一些特定于IBM发行版的应用程序。
这是下载链接。 -
你必须创建一个帐户,但它是免费的,并且不需要那么长时间。
我现在不能发布多个链接,但很容易在线查找教程,它们也存在于VM中。
还有一个论坛,我发布了我的问题,当我遇到困难时,IBM的某个人总是在一小时到一天内帮助我。无法发布链接,但如果你谷歌“IBM InfoSphere BigInsights论坛”,它是第一次点击。
祝你好运!
答案 2 :(得分:1)
我现在正在尝试学习Hadoop,我所做的是下载虚拟框(http://www.virtualbox.org/)并在其上加载一些linux图像并开始学习。
您甚至可以从cloudera获得预制的hadoop设置图像。我认为这种方法比在主要机器上安装和设置要好得多,因为如果出现问题,主机将不会受影响(您可以简单地恢复到虚拟linux映像的旧副本或刮掉它并重新开始,没有任何影响。)
祝你好运!答案 3 :(得分:1)
在Windows上开发Hadoop是可行的,但很难做到正确。它需要安装Cygwin并且正确获取所有环境变量可能会非常棘手。 要开始在Windows上开发,我建议安装vmware播放器并运行Cloudera预先配置的虚拟机。这只是意味着您将在Linux中进行Hadoop开发而无需重新启动或重新安装Windows系统,并且没有与cygwin相关的安装问题。
https://ccp.cloudera.com/display/SUPPORT/Cloudera%27s+Hadoop+Demo+VM
答案 4 :(得分:1)
我也一直在与雅虎教程打交道。 Eclipse插件不再维护,并且非常不可靠。希望cloudera图像可以解决问题。
答案 5 :(得分:0)
我刚刚在http://bigdatauniversity.com完成了“Hadoop Fundamentals I - Version 2”。 它附带IBM BigBisunessInsight VMWare映像,效果很好。
图像包括本地模式1和群集模式1。它能够在我的Windows 8工作站中使用8GB RAM模拟多节点群集。
希望这些信息有用: - )