Question

我关注网址 https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 抓取数据..

当我到达下面的命令时，我正面临错误

bin/nutch inject crawl/crawldb dmoz

我的java路径已设置..＆amp;我在路径中也有DmozParser类

/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch

Answer 1

这是因为您的系统中可能存在或可能不存在类，但它不存在于所需的位置。

首先，完成以下步骤

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz

DMOZ包含大约300万个网址。我们从每5,000个中选择一个，这样我们就会得到大约1,000个网址：

mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls

解析器也需要几分钟，因为它必须解析整个文件。最后，我们使用选定的URL初始化crawldb。

bin/nutch inject crawl/crawldb dmoz

＆安培;然后是你想要击中的其他步骤。