我是Apache Nutch的新手。
我正在使用Nutch抓取一些网站来获取所有网页内容(包括HTML文件,PDF,图片)。
我编写了一个小程序来从SEGEMENTs中提取Nutch结果,如下所示:
byte[] fileContents = content.getContent();
这里的问题是,getContent()
返回字节数组。因此,如果PDF内容的大小超过70KB(约70,000字节);由getContent()
返回的数组无法保存整个文件内容,但我没有得到正确的PDF文件。
是否有其他方法可以处理大内容
我已阅读有关content.read()
/ content.write()
但未找到文档的内容。
任何有关这方面的帮助将不胜感激。
答案 0 :(得分:0)
您的问题实际上可能是Nutch没有抓取您的PDF或由于其大小而截断它。确保您已将file.content.limit
中的http.content.limit
和nutch-site.xml
属性设置为适当的值。您可以将其设置为-1
以接受任何文件大小。