PDFBox字体unicode映射,不同文件,相同字体,不同cid / gids

时间:2018-04-10 06:32:43

标签: apache pdf pdfbox text-extraction

我的一些PDF文件存在问题,我需要从中提取文本。 PDF由同一机构生成。我在Stack Overflow中找到了一个关于如何手动执行映射的主题。我试过了,但问题是我看的每个文件在CID / GID上都有细微差别。

例如:

file1.pdf

file2.pdf

file3.pdf

有没有办法以某种方式修复字体或唯一的选择是使用OCR?

0 个答案:

没有答案