我是Nutch的新手,我想抓取网站。我正在使用Nutch 1.12,我盲目地按照提到的步骤here
我下载了apache-nutch-1.12-bin.zip,然后将其解压缩。使用cygwin我试图抓住我的第一个网站。我刚刚按照上一页中的步骤进行操作。
我创建了名为url的目录,在其中我创建了seed.txt并在其中包含http://nutch.apache.org/。
现在我想执行命令bin / nutch inject crawl / crawldb urls,但我得到以下异常。
Chola @ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注入crawl / crawldb网址 注射器:2017-03-08 14:31:17开始 Injector:crawlDb:crawl / crawldb 注射器:urlDir:urls 注入器:将注入的URL转换为爬网数据库条目。 Injector:org.apache.hadoop.fs.FileAlreadyExistsException:父路径不是目录:crawl 在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409) 在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413) 在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584) at org.apache.nutch.crawl.Injector.inject(Injector.java:350) 在org.apache.nutch.crawl.Injector.run(Injector.java:467) 在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在org.apache.nutch.crawl.Injector.main(Injector.java:441)
你能不能请某人帮忙解决这个问题
答案 0 :(得分:0)
我遇到了同样的问题。
您是否使用" -p"创建了url目录?参数
当我这样做时,问题就解决了。
祝你好运。