Question

我是Apache Nutch的新手。

我正在使用Nutch抓取一些网站来获取所有网页内容（包括HTML文件，PDF，图片）。

我编写了一个小程序来从SEGEMENTs中提取Nutch结果，如下所示：

byte[] fileContents = content.getContent();

这里的问题是，getContent()返回字节数组。因此，如果PDF内容的大小超过70KB（约70,000字节）;由getContent()返回的数组无法保存整个文件内容，但我没有得到正确的PDF文件。

是否有其他方法可以处理大内容

我已阅读有关content.read() / content.write()但未找到文档的内容。任何有关这方面的帮助将不胜感激。

Answer 1

您的问题实际上可能是Nutch没有抓取您的PDF或由于其大小而截断它。确保您已将file.content.limit中的http.content.limit和nutch-site.xml属性设置为适当的值。您可以将其设置为-1以接受任何文件大小。