我正在使用iText将文本从PDF提取到字符串但我遇到了问题 有一些PDF。当我尝试提取文本时,读者只提取空白/销毁文本 在一些pdfs上。
已销毁文字的示例:
“我们很长时间没有这么做”
这个问题的原因是什么?
我正在考虑删除字体并将字体更改为适合阅读的字体 读者。我试过研究这个,但我找到的并没有帮助我。
答案 0 :(得分:0)
这是由文本存储在PDF文件中的方式引起的。它只是为包含渲染和位置的信息添加字母。文本提取算法很聪明,因为它找到了看起来很接近的字母,如果是这样,它会将它们组合在一起。如果它们不是那么接近,它会放入一些空间。
但是,我不能告诉你该怎么办。