标签: apache pdf pdfbox text-extraction
我的一些PDF文件存在问题,我需要从中提取文本。 PDF由同一机构生成。我在Stack Overflow中找到了一个关于如何手动执行映射的主题。我试过了,但问题是我看的每个文件在CID / GID上都有细微差别。
例如:
file1.pdf
file2.pdf
file3.pdf
有没有办法以某种方式修复字体或唯一的选择是使用OCR?