应用错误收集

PDFBox字体unicode映射，不同文件，相同字体，不同cid / gids

时间：2018-04-10 06:32:43

标签： apache pdf pdfbox text-extraction

我的一些PDF文件存在问题，我需要从中提取文本。 PDF由同一机构生成。我在Stack Overflow中找到了一个关于如何手动执行映射的主题。我试过了，但问题是我看的每个文件在CID / GID上都有细微差别。

例如：

有没有办法以某种方式修复字体或唯一的选择是使用OCR？

0 个答案:

没有答案