我已经使用Hadoop的单个节点设置了Apache Nutch。当我执行crawl命令时,它开始爬行。然而,几分钟后就会抛出异常。
原因:org.apache.hadoop.mapred.InvalidInputException:输入路径有 不存在:(请参考图片1)
这是根据例外的无效路径 HDFS://本地主机:54310 /用户/ duleendra / TestCrawl /分段/ drwxrwxrwx / crawl_generate
实际上hdfs中没有这样的路径。
这个drwxrwxrwx是怎么来的?
在hdfs中我可以看到以下路径
HDFS://本地主机:54310 /用户/ duleendra / TestCrawl /分段/ 20150506222506 / crawl_generate
(请参阅图像2)。
我错过了什么吗?
由于
Duleendra
答案 0 :(得分:0)
我认为这是基于Unix的系统(如OSX和FreeBsd)中的一个错误。 Nutch的爬行不会起作用。试试ubuntu。