Apache Nutch错误:Injector:java.io.IOException :( null)命令字符串中的条目:null chmod 0644

时间:2018-01-18 05:33:58

标签: apache hadoop cygwin nutch

我在拥有java 1.8的Windows 10上使用Apache Nutch 1.14。我遵循了https://wiki.apache.org/nutch/NutchTutorial中提到的相同步骤。

当我尝试使用cygwin上的命令在crawldb中注入URL时:bin / nutch inject crawl / crawldb urls

我收到以下错误: Injector:java.io.IOException :( null)命令字符串中的条目:null chmod 0644 E:\ apache-nutch-1.4 \ runtime \ local \ crawl \ crawldb.locked         在org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute(Shell.java:773)

我检查了日志,发现了这个:

2018-01-18 10:55:26,785 ERROR util.Shell - 无法在hadoop二进制路径中找到winutils二进制文件 java.io.IOException:找不到Hadoop二进制文件中的可执行文件null \ bin \ winutils.exe。

我在几个页面上搜索过这个错误但没有任何帮助。

1 个答案:

答案 0 :(得分:2)

  1. 在windows中创建新目录,例如c:\ winutil。
  2. 在winutil内创建bin目录
  3. 打开https://minhaskamal.github.io/DownGit/#/home
  4. 在上述网站中粘贴https://github.com/steveloughran/winutils/tree/master/hadoop-2.8.1,然后下载winutil-hadoop2.8.1
  5. 在c:\ winutil \ bin
  6. 中提取zip内容
  7. 将HADOOP_HOME变量添加到系统变量并使其引用c:\ winutil
  8. 在cygin中重新运行您的抓取命令