我正在尝试在我的ubuntu桌面上设置并运行apache nutch 2.2.1。作为一个新手,我发现官方网站给出的教程的某些部分有点令人困惑。
如果我要在自己的桌面上运行它,那么转到
是否正确$NUTCH_HOME/runtime/local
运行bin / nutch命令?
我应该在哪里放置名为urls的文件? (其中有种子列表seed.txt)是否在
之下$NUTCH_HOME/runtime/local
如果我在正确的目录中,我在执行命令时遇到此问题
bin/nutch crawl urls -dir crawl -depth 1
InjectorJob:使用org.apache.gora.memory.store.MemStore类作为Gora存储类。 InjectorJob:过滤器拒绝的网址总数:0 InjectorJob:规范化和过滤后注入的URL总数:0 线程“main”中的异常java.lang.RuntimeException:作业失败:name = generate:null,jobid = job_local1613558008_0002 在org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 在org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
我遵循教程1 http://wiki.apache.org/nutch/NutchTutorial直到3.3 还没有配置GORA Hbase等 似乎出现这个问题是因为注射器没有得到网址。 有谁知道如何解决这个问题?非常感谢!
答案 0 :(得分:1)
你应该去$NUTCH_HOME/runtime/deploy
运行命令
答案 1 :(得分:-1)
如果你想与GORA集成,Hbase在Nutchsite.xml中提到它
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>