尝试使用Google搜索,但找不到任何有用的内容。
按照https://wiki.apache.org/nutch/NutchTutorial
中的教程用bin / nutch验证了nutch,很好
安装java 8
java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)
并包含在路径uxing export
中export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"
注意使用windows因此也使用cygwin64。
添加了目录网址并添加了带有一个网址的文件seed.txt
跑了
bin/nutch inject crawl/crawldb urls/seed.txt
然后出现以下错误:
Injector:crawlDb:crawl / crawldb Injector:urlDir:urls / seed.txt 注入器:将注入的URL转换为爬网数据库条目。 Injector:java.io.IOException:锁定文件crawl / crawldb / .locked已经存在。
答案 0 :(得分:1)
嗨,这个问题有两个部分:
1。 crawldb文件夹中已经存在.locked文件。只需删除.locked文件即可。
2。为%JAVA_HOME%\bin
和%HADOOP_HOME%\bin
设置系统环境变量Path,然后还将User环境变量设置为%JAVA_HOME%
和%HADOOP_HOME%
,不带bin。
答案 1 :(得分:0)
错误信息非常明确:另一个Nutch工作持有CrawlDb resp的锁定。在作业成功后删除锁定文件之前,它已崩溃或被杀死。删除锁定文件crawl/crawldb/.locked
应该可以解决问题。但是查看日志文件(尤其是hadoop.log)以查找锁定文件未被删除的原因也是一种很好的做法。