Question

我正在尝试从pdf电子书中提取重音词。使用itext库时会产生最好的结果，但是我无法从单词中获得重音。例如：

побеђивање-应该出来 - побеђива̄ње（口音缺失）

这些信件是西里尔文塞尔维亚语。我尝试了许多ocr解决方案，但它们都给出了不好的结果。有没有办法让我使用itext以pdf的方式提取所有这些pdf数据。我知道这与pdf的工作方式有很大关系，这很难得到，但我再次需要这个，另一种方法是重新输入所有数据。 pdf文件pdf example file

Answer 1

示例文档实际上包含一个大图像，一个扫描页面和扫描打印字母顶部的不可见文本信息。这些文本信息很可能是某些OCR过程的结果。

不幸的是，此文本信息已经缺少相关的重音符号。例如。第一个条目的文本

асталчнћ м дем. од астал.

添加为

(\340\361\362\340\353\367\355)Tj 0 Tc (\236)Tj
...

如您所见，在位置1和4处使用相同的字母\340，而根据扫描的页面，其中一个匹配的印刷字母具有重音而一个没有。

整个页面都会发生这种情况。

因此，任何对常规文本提取的尝试都将无法返回有问题的重音。你唯一的机会就是使用OCR。

你说你

尝试了许多ocr解决方案，但它们都给出了不好的结果

可能您已将OCR应用程序应用于PDF或其渲染版本。我建议你改为提取扫描图像;这样你就可以获得所有的质量。 iText可以帮助您提取图像。