经过几次运行时异常迭代后,Nutch爬行失败

时间:2019-01-22 06:39:51

标签: web-crawler nutch depth

我们正在使用Nutch 2.3.1-src版本。执行200深度的抓取命令。但是经过几次迭代后,由于以下提到的运行时异常,获取失败。

java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception at GoraRecordWriter.class while writing to datastore: KeyValue size too large

抓取命令:

/Data/Apache/apache-nutch-2.3.1/runtime/local/bin/crawl /Data/Apache/apache-nutch-2.3.1/runtime/local/urls crawl-nutch http://localhost:9200/test/ 200

1 个答案:

答案 0 :(得分:0)

请问您使用的是哪个后端? 如果是HBase,则必须更新最大KeyValue大小配置。该配置位于hbase-site.xml文件中,默认情况下为10MB

<property> <name>hbase.client.keyvalue.maxsize</name> <value>10485760</value> </property>