我正在尝试从pdf电子书中提取重音词。使用itext库时会产生最好的结果,但是我无法从单词中获得重音。 例如:
побеђивање-应该出来 - побеђива̄ње(口音缺失)
这些信件是西里尔文塞尔维亚语。 我尝试了许多ocr解决方案,但它们都给出了不好的结果。有没有办法让我使用itext以pdf的方式提取所有这些pdf数据。我知道这与pdf的工作方式有很大关系,这很难得到,但我再次需要这个,另一种方法是重新输入所有数据。 pdf文件pdf example file
答案 0 :(得分:3)
示例文档实际上包含一个大图像,一个扫描页面和扫描打印字母顶部的不可见文本信息。这些文本信息很可能是某些OCR过程的结果。
不幸的是,此文本信息已经缺少相关的重音符号。例如。第一个条目的文本
添加为
(\340\361\362\340\353\367\355)Tj 0 Tc (\236)Tj
...
如您所见,在位置1和4处使用相同的字母\340
,而根据扫描的页面,其中一个匹配的印刷字母具有重音而一个没有。
整个页面都会发生这种情况。
因此,任何对常规文本提取的尝试都将无法返回有问题的重音。你唯一的机会就是使用OCR。
你说你
尝试了许多ocr解决方案,但它们都给出了不好的结果
可能您已将OCR应用程序应用于PDF或其渲染版本。我建议你改为提取扫描图像;这样你就可以获得所有的质量。 iText可以帮助您提取图像。