Question

我有一个122页的pdf文件。当我使用Tika（版本1.17）解析它时，它不会返回返回的string中的整个文本。

我使用以下简单代码来获取文本：

    String content = new Tika().parseToString(file);

我使用此代码获得的文本在第118页左右结束。也就是说，最后一页被忽略。

Answer 1

宣传回答评论......

Apache Tika默认设置文本的最大大小，允许解析器生成，以避免意外淹没用户。在你的情况下，当你确实需要更多时，看起来你正在达到这个限制！

作为Tika门户助手课程的用户，您只需要使用更高限制来调用Tika.setMaxStringLength(int)，或者-1只是为了完全禁用限制

如果您直接使用Tika解析器类，那么您应该为内容处理程序设置更高的写入限制（或-1），例如BodyContentHandler(int writeLimit)