我正试图在Windows 7机器上通过Cygwin运行Nutch。
尝试爬行时,我无法通过注射器阶段。
这是我得到的错误:
2016-03-09 13:42:45,454 ERROR util.Shell - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
稍后它会导致NullPointerException:
2016-03-09 13:42:46,445 ERROR crawl.Injector - Injector:java.lang.NullPointerException 在java.lang.ProcessBuilder.start(ProcessBuilder.java:1010)
刚过完后#34;将注入的网址转换为抓取数据库条目。"
有人如何解决此错误?
答案 0 :(得分:0)
我想问题是Nutch无法读取输入的URL种子文件(包含要爬网的URL列表)。请检查文件的路径是否正确。
希望这有帮助,
Le Quoc Do