我正在尝试使用Eclipse在Hadoop平台上实现PageRank算法,但我遇到了一些不寻常的问题:)。我在本地试了一下:安装了cygwin,设置了Hadoop 0.19.2(和0.18.0),启动了必要的守护进程并安装了Eclipse 3.3.1。我上传了testinf .txt文件,然后尝试运行WordCount示例甚至是一个简单的.java,我得到了这个输出(大约100次:))):
10/07/22 22:10:23 INFO mapred.FileInputFormat:要处理的总输入路径:1
10/07/22 22:10:23 INFO mapred.JobClient:正在运行的工作:job_201007220415_0017
10/07/22 22:10:24 INFO mapred.JobClient:map 0%reduce 0%
Map and reduce始终为0%。我尝试在虚拟机上使用Hadoop,我也遇到了同样的情况。
我遵循了Hadoop页面和其他有用页面的所有说明,但它没有解决我的问题。有什么建议? :)
答案 0 :(得分:1)
对于您的Hadoop设置而言,这听起来比使用Eclipse更成问题。确保您的群集的所有部分都在运行,即DataNode,TaskTracker,JobTracker。如果这些都在运行,那么您设置工作的方式可能会出现问题。
答案 1 :(得分:0)
你是否愿意用Java做这件事?如果没有,你可以使用名为WUKONG的Ruby gem,它有一个pagerank示例http://github.com/mrflip/wukong/tree/master/examples/pagerank/