大家好,我是Nutch的新手,用于网络抓取。我按照上述步骤操作
Nutch official site tutorial.
我在终端中键入了命令
$ bin / crawl -i -D solr.server.url = http://localhost:8983/solr/ urls / TestCrawl / 2
其中urls有种子文件包含网站名称,TestCrawl是我的db目录。
答案 0 :(得分:0)
你是否使用ant clean
和ant runtime
命令构建了nutch?
如果是,那么不要使用位于$NUTCH_HOME/bin/nutch
的nutch运行nutch,而是使用位于$NUTCH_HOME/runtime/local/bin/nutch
内的from。
如果没有,则首先使用ant runtime
命令构建运行。
HTH。