我有一个122页的pdf文件。当我使用Tika
(版本1.17)解析它时,它不会返回返回的string
中的整个文本。
我使用以下简单代码来获取文本:
String content = new Tika().parseToString(file);
我使用此代码获得的文本在第118页左右结束。也就是说,最后一页被忽略。
答案 0 :(得分:2)
宣传回答评论......
Apache Tika默认设置文本的最大大小,允许解析器生成,以避免意外淹没用户。在你的情况下,当你确实需要更多时,看起来你正在达到这个限制!
作为Tika门户助手课程的用户,您只需要使用更高限制来调用Tika.setMaxStringLength(int),或者-1
只是为了完全禁用限制
如果您直接使用Tika解析器类,那么您应该为内容处理程序设置更高的写入限制(或-1
),例如BodyContentHandler(int writeLimit)