应用错误收集

iText PDF文本提取字体和样式

时间：2013-01-23 22:46:51

标签： java android pdf itext

我正在使用iText将文本从PDF提取到字符串但我遇到了问题有一些PDF。当我尝试提取文本时，读者只提取空白/销毁文本在一些pdfs上。

已销毁文字的示例：

“我们很长时间没有这么做”

这个问题的原因是什么？

我正在考虑删除字体并将字体更改为适合阅读的字体读者。我试过研究这个，但我找到的并没有帮助我。

1 个答案:

答案 0 :(得分：0)

这是由文本存储在PDF文件中的方式引起的。它只是为包含渲染和位置的信息添加字母。文本提取算法很聪明，因为它找到了看起来很接近的字母，如果是这样，它会将它们组合在一起。如果它们不是那么接近，它会放入一些空间。

但是，我不能告诉你该怎么办。