Itext从pdf获得特别信件

时间:2015-06-08 08:23:16

标签: java pdf itext

我正在尝试从pdf电子书中提取重音词。使用itext库时会产生最好的结果,但是我无法从单词中获得重音。 例如:

побеђивање-应该出来 - побеђива̄ње(口音缺失)

这些信件是西里尔文塞尔维亚语。 我尝试了许多ocr解决方案,但它们都给出了不好的结果。有没有办法让我使用itext以pdf的方式提取所有这些pdf数据。我知道这与pdf的工作方式有很大关系,这很难得到,但我再次需要这个,另一种方法是重新输入所有数据。 pdf文件pdf example file

1 个答案:

答案 0 :(得分:3)

示例文档实际上包含一个大图像,一个扫描页面和扫描打印字母顶部的不可见文本信息。这些文本信息很可能是某些OCR过程的结果。

不幸的是,此文本信息已经缺少相关的重音符号。例如。第一个条目的文本

асталчнћ м дем. од астал.

添加为

(\340\361\362\340\353\367\355)Tj 0 Tc (\236)Tj
...

如您所见,在位置1和4处使用相同的字母\340,而根据扫描的页面,其中一个匹配的印刷字母具有重音而一个没有。

整个页面都会发生这种情况。

因此,任何对常规文本提取的尝试都将无法返回有问题的重音。你唯一的机会就是使用OCR。

你说你

  

尝试了许多ocr解决方案,但它们都给出了不好的结果

可能您已将OCR应用程序应用于PDF或其渲染版本。我建议你改为提取扫描图像;这样你就可以获得所有的质量。 iText可以帮助您提取图像。