我正在使用Java中的PDFBox尝试从pdf文件中提取文本。这是我加载文件的方式:
classpath
如您所见,它将打开文件并在其中加载内容。当我说我试图加载一个包含1000万个单词或文本的文件时,这可能会引起问题,该文件或文本很大并且会抛出PDDocument document = PDDocument.load(new File(path1));
。
我实际上对此进行了测试,但确实引发了错误。罪魁祸首是上面的那条线。 有没有办法打开文件但不将其内容加载到PDFBox中?
我很感谢任何建议。
答案 0 :(得分:2)
使用:
PDDocument doc = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());
这将设置缓冲内存使用率,以仅使用无限制大小的临时文件。