apache - 如何或在何处运行$ ./nutch注入crawl / crawldb网址

我是Nutch的新手，我想抓取网站。我正在使用Nutch 1.12，我盲目地按照提到的步骤here

我下载了apache-nutch-1.12-bin.zip，然后将其解压缩。使用cygwin我试图抓住我的第一个网站。我刚刚按照上一页中的步骤进行操作。

我创建了名为url的目录，在其中我创建了seed.txt并在其中包含http://nutch.apache.org/。

现在我想执行命令bin / nutch inject crawl / crawldb urls，但我得到以下异常。

Chola @ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注入crawl / crawldb网址注射器：2017-03-08 14:31:17开始 Injector：crawlDb：crawl / crawldb 注射器：urlDir：urls 注入器：将注入的URL转换为爬网数据库条目。 Injector：org.apache.hadoop.fs.FileAlreadyExistsException：父路径不是目录：crawl 在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:409）在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:413）在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs（ChecksumFileSystem.java:584） at org.apache.nutch.crawl.Injector.inject（Injector.java:350）在org.apache.nutch.crawl.Injector.run（Injector.java:467）在org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70）在org.apache.nutch.crawl.Injector.main（Injector.java:441）

你能不能请某人帮忙解决这个问题

如何或在何处运行$ ./nutch注入crawl / crawldb网址

1 个答案: