应用错误收集

使用apache pdfbox从PDF中提取希伯来语文本不会返回所有字符

时间：2017-05-10 19:52:50

标签： java pdf pdfbox

下面的代码从http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf中提取希伯来文，没有希伯来字符“ן”。所有其他文本似乎被提取得很好。有什么想法吗？

__del__

附加显示缺失字符的屏幕截图。左侧是页面http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf在Crome中的显示方式。右侧是使用上述代码提取PDF文本的结果。

0 个答案:

没有答案