Nutch 1.11在Cygwin上

时间:2016-03-09 20:14:24

标签: hadoop cygwin nutch

我正试图在Windows 7机器上通过Cygwin运行Nutch。

尝试爬行时,我无法通过注射器阶段。

这是我得到的错误:

2016-03-09 13:42:45,454 ERROR util.Shell - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

稍后它会导致NullPointerException:

2016-03-09 13:42:46,445 ERROR crawl.Injector - Injector:java.lang.NullPointerException     在java.lang.ProcessBuilder.start(ProcessBuilder.java:1010)

刚过完后#34;将注入的网址转换为抓取数据库条目。"

有人如何解决此错误?

1 个答案:

答案 0 :(得分:0)

我想问题是Nutch无法读取输入的URL种子文件(包含要爬网的URL列表)。请检查文件的路径是否正确。

希望这有帮助,

Le Quoc Do