nutch content.getContent()无法返回整个结果

时间:2014-04-12 20:05:34

标签: java pdf nutch

我是Apache Nutch的新手。

我正在使用Nutch抓取一些网站来获取所有网页内容(包括HTML文件,PDF,图片)。

我编写了一个小程序来从SEGEMENTs中提取Nutch结果,如下所示:

byte[] fileContents = content.getContent();

这里的问题是,getContent()返回字节数组。因此,如果PDF内容的大小超过70KB(约70,000字节);由getContent()返回的数组无法保存整个文件内容,但我没有得到正确的PDF文件。

是否有其他方法可以处理大内容

我已阅读有关content.read() / content.write()但未找到文档的内容。 任何有关这方面的帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

您的问题实际上可能是Nutch没有抓取您的PDF或由于其大小而截断它。确保您已将file.content.limit中的http.content.limitnutch-site.xml属性设置为适当的值。您可以将其设置为-1以接受任何文件大小。