Question

我正在尝试按照指南设置Apache Nutch来抓取网址。作为一个较老的指南（该指南适用于1.x，我使用的是2.3），我对结构做了必要的修改。但是，当我尝试运行爬网时，我收到此错误：

root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
  /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
root@IndiStage:~#

对Ubuntu（14.04）不熟悉，我发现在这里管理目录结构和路径很困难。

InjectorJob位于/usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME设置为/usr/lib/jvm/java-7-openjdk-amd64

Answer 1

确保您已经编译了Nutch源代码。然后，从$ {APACHE_NUTCH_HOME} / runtime / local（或$ {APACHE_NUTCH_HOME} / runtime / deploy / bin）运行crawl命令。

希望这有帮助，

Le Quoc Do

Apache Nutch - 路径问题

1 个答案: