Question

尝试使用Google搜索，但找不到任何有用的内容。

按照https://wiki.apache.org/nutch/NutchTutorial

中的教程

用bin / nutch验证了nutch，很好

安装java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包含在路径uxing export

中

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

注意使用windows因此也使用cygwin64。

添加了目录网址并添加了带有一个网址的文件seed.txt

跑了

bin/nutch inject crawl/crawldb urls/seed.txt

然后出现以下错误：

Injector：crawlDb：crawl / crawldb Injector：urlDir：urls / seed.txt 注入器：将注入的URL转换为爬网数据库条目。 Injector：java.io.IOException：锁定文件crawl / crawldb / .locked已经存在。

Answer 1

嗨，这个问题有两个部分：

1。 crawldb文件夹中已经存在.locked文件。只需删除.locked文件即可。

2。为%JAVA_HOME%\bin和%HADOOP_HOME%\bin设置系统环境变量Path，然后还将User环境变量设置为%JAVA_HOME%和%HADOOP_HOME%，不带bin。

Answer 2

错误信息非常明确：另一个Nutch工作持有CrawlDb resp的锁定。在作业成功后删除锁定文件之前，它已崩溃或被杀死。删除锁定文件crawl/crawldb/.locked应该可以解决问题。但是查看日志文件（尤其是hadoop.log）以查找锁定文件未被删除的原因也是一种很好的做法。

Apache Nutch 1.x注入抓取错误

2 个答案: