Question

我正在尝试在我的ubuntu桌面上设置并运行apache nutch 2.2.1。作为一个新手，我发现官方网站给出的教程的某些部分有点令人困惑。

如果我要在自己的桌面上运行它，那么转到
是否正确
```
$NUTCH_HOME/runtime/local 
```

运行bin / nutch命令？

我应该在哪里放置名为urls的文件？（其中有种子列表seed.txt）是否在
之下
```
$NUTCH_HOME/runtime/local
```

如果我在正确的目录中，我在执行命令时遇到此问题

bin/nutch crawl urls -dir crawl -depth 1

InjectorJob：使用org.apache.gora.memory.store.MemStore类作为Gora存储类。 InjectorJob：过滤器拒绝的网址总数：0 InjectorJob：规范化和过滤后注入的URL总数：0 线程“main”中的异常java.lang.RuntimeException：作业失败：name = generate：null，jobid = job_local1613558008_0002 在org.apache.nutch.util.NutchJob.waitForCompletion（NutchJob.java:54）在org.apache.nutch.crawl.GeneratorJob.run（GeneratorJob.java:199）在org.apache.nutch.crawl.Crawler.runTool（Crawler.java:68）在org.apache.nutch.crawl.Crawler.run（Crawler.java:152）在org.apache.nutch.crawl.Crawler.run（Crawler.java:250）在org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:65）在org.apache.nutch.crawl.Crawler.main（Crawler.java:257）

我遵循教程1 http://wiki.apache.org/nutch/NutchTutorial直到3.3 还没有配置GORA Hbase等似乎出现这个问题是因为注射器没有得到网址。有谁知道如何解决这个问题？非常感谢！

Answer 1

你应该去$NUTCH_HOME/runtime/deploy运行命令

Answer 2

如果你想与GORA集成，Hbase在Nutchsite.xml中提到它

 <property>
        <name>storage.data.store.class</name>
        <value>org.apache.gora.hbase.store.HBaseStore</value>
        <description>Default class for storing data</description>
    </property>

设置和运行apache nutch 2.2.1

2 个答案: