我关注网址 https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 抓取数据..
当我到达下面的命令时,我正面临错误
bin/nutch inject crawl/crawldb dmoz
我的java路径已设置..&我在路径中也有DmozParser类
/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch
答案 0 :(得分:0)
这是因为您的系统中可能存在或可能不存在类,但它不存在于所需的位置。
首先,完成以下步骤
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz
DMOZ包含大约300万个网址。我们从每5,000个中选择一个,这样我们就会得到大约1,000个网址:
mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls
解析器也需要几分钟,因为它必须解析整个文件。最后,我们使用选定的URL初始化crawldb。
bin/nutch inject crawl/crawldb dmoz
&安培;然后是你想要击中的其他步骤。