标签: ocr tesseract
我有5个PDFS,我转换为TIFF,与jtessbox合并,创建了一个盒子文件,然后经历了拾取每个字母的过程。在构建语言之后,我尝试在相同的大TIFF上运行tesseract并转换PDFS,但是我的准确性要比使用默认字典更差。有什么我可能做错了吗?