错误:无法找到或加载主类org.apache.nutch.crawl.InjectorJob

时间:2016-01-12 07:17:09

标签: apache nutch

我关注网址 https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 抓取数据..

当我到达下面的命令时,我正面临错误

bin/nutch inject crawl/crawldb dmoz

我的java路径已设置..&我在路径中也有DmozParser类

/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch

1 个答案:

答案 0 :(得分:0)

这是因为您的系统中可能存在或可能不存在类,但它不存在于所需的位置。

首先,完成以下步骤

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz

DMOZ包含大约300万个网址。我们从每5,000个中选择一个,这样我们就会得到大约1,000个网址:

mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls

解析器也需要几分钟,因为它必须解析整个文件。最后,我们使用选定的URL初始化crawldb。

bin/nutch inject crawl/crawldb dmoz

&安培;然后是你想要击中的其他步骤。