标签: java itext tesseract pdfbox pdftotext
我手动扫描了一些硬拷贝文件并存储到pdf文件中(软拷贝)。现在这些pdf文件是我的输入,所以我需要从这些pdf文件中提取文本。我尝试了tika,pdfbox,itext,tess4j没有给我的文件50%的准确度(主要是垃圾数据)给我的文件(获取从互联网上下载的其他pdf的确切文本),你能建议我解决这个问题。
由于