Tika解析器不解析所有文件

时间:2018-02-14 10:16:46

标签: pdf apache-tika

我有一个122页的pdf文件。当我使用Tika(版本1.17)解析它时,它不会返回返回的string中的整个文本。

我使用以下简单代码来获取文本:

    String content = new Tika().parseToString(file);

我使用此代码获得的文本在第118页左右结束。也就是说,最后一页被忽略。

1 个答案:

答案 0 :(得分:2)

宣传回答评论......

Apache Tika默认设置文本的最大大小,允许解析器生成,以避免意外淹没用户。在你的情况下,当你确实需要更多时,看起来你正在达到这个限制!

作为Tika门户助手课程的用户,您只需要使用更高限制来调用Tika.setMaxStringLength(int),或者-1只是为了完全禁用限制

如果您直接使用Tika解析器类,那么您应该为内容处理程序设置更高的写入限制(或-1),例如BodyContentHandler(int writeLimit)