我们正在使用Nutch 2.3.1-src版本。执行200深度的抓取命令。但是经过几次迭代后,由于以下提到的运行时异常,获取失败。
java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception at GoraRecordWriter.class while writing to datastore: KeyValue size too large
抓取命令:
/Data/Apache/apache-nutch-2.3.1/runtime/local/bin/crawl /Data/Apache/apache-nutch-2.3.1/runtime/local/urls crawl-nutch http://localhost:9200/test/ 200
答案 0 :(得分:0)
请问您使用的是哪个后端? 如果是HBase,则必须更新最大KeyValue大小配置。该配置位于hbase-site.xml文件中,默认情况下为10MB
<property>
<name>hbase.client.keyvalue.maxsize</name>
<value>10485760</value>
</property>