我是nutch和solr整合的新手。
我想抓取新的网址,所以我在ubuntu中安装了solr版本4.6.0和nutch版本1.6。首先我从一些配置开始,但我仍然收到此错误:
org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin / 20150529030452 / crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
在文件日志中,我收到此错误:
2015-05-29 03:05:41,153 ERROR security.UserGroupInformation -PriviledgedActionException as:cloudera
原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
2015-05-29 03:05:41,153 ERROR solr.SolrIndexer - org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452 / crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
这是什么意思,请您解释一下这个问题,我该如何解决呢。
我将非常感谢您的帮助。
答案 0 :(得分:1)
如果您正在使用Mac OS中的bin/crawl
或任何基于Unix的操作系统(如FreeBSD),请切换到Ubuntu。我相信这是抓取脚本的错误。我之前遇到过这种情况,而是使用了Ubuntu。