Apache Nutch NoSuchElementException与bin / nutch注入,readdb,生成选项

时间:2015-06-29 20:31:26

标签: web-scraping nutch

我是Apache Nutch 2.3和Solr的新手。我正试图让我的第一次爬行工作。我在官方文档中提到安装了Apache Nutch和Solr,两者都运行正常。但是,当我执行以下步骤时,我收到错误 - bin / nutch注入examples / dmoz / - 正确工作 (InjectorJob:过滤器拒绝的网址总数:2 InjectorJob:标准化和过滤后注入的网址总数:130)

错误 - $ bin / nutch generate -t​​opN 5 GeneratorJob:从2015-06-25 17:51:50开始 GeneratorJob:选择要获取的最佳得分网址。 GeneratorJob:开始 GeneratorJob:过滤:true GeneratorJob:normalizing:true GeneratorJob:topN:5

java.util.NoSuchElementException
at java.util.TreeMap.key(TreeMap.java:1323)
at java.util.TreeMap.firstKey(TreeMap.java:290)
at org.apache.gora.memory.store.MemStore.execute(MemStore.java:125)
at org.apache.gora.query.impl.QueryBase.execute(QueryBase.java:73) ...
GeneratorJob: generated batch id: 1435279910-1190400607 containing 0 URLs

如果我这样做也会出现相同的错误 - $ bin / nutch readdb -stats 错误 - java.util.NoSuchElementException ... WebTable统计:

jobs:   {db_stats-job_local970586387_0001={jobName=db_stats, jobID=job_local970586387_0001, counters={Map-Reduce Framework={MAP_OUTPUT_MATERIALIZED_BYTES=6, REDUCE_INPUT_RECORDS=0, SPILLED_RECORDS=0, MAP_INPUT_RECORDS=0, SPLIT_RAW_BYTES=653, MAP_OUTPUT_BYTES=0, REDUCE_SHUFFLE_BYTES=0, REDUCE_INPUT_GROUPS=0, COMBINE_OUTPUT_RECORDS=0, REDUCE_OUTPUT_RECORDS=0, MAP_OUTPUT_RECORDS=0, COMBINE_INPUT_RECORDS=0, COMMITTED_HEAP_BYTES=514850816}, File Input Format Counters ={BYTES_READ=0}, File Output Format Counters ={BYTES_WRITTEN=98}, FileSystemCounters={FILE_BYTES_WRITTEN=1389120, FILE_BYTES_READ=1216494}}}}
TOTAL urls: 0

我也无法使用生成或抓取命令。

谁能告诉我我做错了什么?

感谢。

1 个答案:

答案 0 :(得分:0)

我也是nutch的新手。但是,我认为问题是您尚未配置数据存储。我得到了同样的错误,并得到了更多。您需要遵循以下步骤:https://wiki.apache.org/nutch/Nutch2Tutorial或此:https://wiki.apache.org/nutch/Nutch2Cassandra。然后,重建:ant runtime