iText PDF文本提取字体和样式

时间:2013-01-23 22:46:51

标签: java android pdf itext

我正在使用iText将文本从PDF提取到字符串但我遇到了问题 有一些PDF。当我尝试提取文本时,读者只提取空白/销毁文本 在一些pdfs上。

已销毁文字的示例:

“我们很长时间没有这么做”

这个问题的原因是什么?

我正在考虑删除字体并将字体更改为适合阅读的字体 读者。我试过研究这个,但我找到的并没有帮助我。

1 个答案:

答案 0 :(得分:0)

这是由文本存储在PDF文件中的方式引起的。它只是为包含渲染和位置的信息添加字母。文本提取算法很聪明,因为它找到了看起来很接近的字母,如果是这样,它会将它们组合在一起。如果它们不是那么接近,它会放入一些空间。

但是,我不能告诉你该怎么办。