Apache Nutch 1.x注入抓取错误

时间:2018-06-04 04:18:45

标签: apache nutch

尝试使用Google搜索,但找不到任何有用的内容。

按照https://wiki.apache.org/nutch/NutchTutorial

中的教程

用bin / nutch验证了nutch,很好

安装java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包含在路径uxing export

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

注意使用windows因此也使用cygwin64。

添加了目录网址并添加了带有一个网址的文件seed.txt

跑了

bin/nutch inject crawl/crawldb urls/seed.txt

然后出现以下错误:

  

Injector:crawlDb:crawl / crawldb   Injector:urlDir:urls / seed.txt   注入器:将注入的URL转换为爬网数据库条目。   Injector:java.io.IOException:锁定文件crawl / crawldb / .locked已经存在。

2 个答案:

答案 0 :(得分:1)

嗨,这个问题有两个部分:

1。 crawldb文件夹中已经存在.locked文件。只需删除.locked文件即可。

2。为%JAVA_HOME%\bin%HADOOP_HOME%\bin设置系统环境变量Path,然后还将User环境变量设置为%JAVA_HOME%%HADOOP_HOME%,不带bin。

答案 1 :(得分:0)

错误信息非常明确:另一个Nutch工作持有CrawlDb resp的锁定。在作业成功后删除锁定文件之前,它已崩溃或被杀死。删除锁定文件crawl/crawldb/.locked应该可以解决问题。但是查看日志文件(尤其是hadoop.log)以查找锁定文件未被删除的原因也是一种很好的做法。