我在项目中使用tesseract并且想知道tesseract的最佳图像输入类型以提供最佳输出,Binary& TIFF是最好的输入还是其他的东西?
答案 0 :(得分:8)
过去使用TIFF进行类似的任务我有很好的结果。当时我使用OpenCV做了一些pre-processing并将结果导出到TIFF文件,后来被发送到tesseract。非常好。
答案 1 :(得分:3)
我发现TIFF给jpg带来了更好的结果,同时也是最好的对抗所有其他类型的。
最初的Tesseract程序只适用于TIFF文件,让我相信它是最合适的
答案 2 :(得分:0)
使用.tif的优势在于(1)scantailor输出.tif文件,以及(2)可以使用tiffcp将单个.tif合并为单个多页文件,然后将其馈送到tesseract。困难在于,如果tesseract输出了.pdf,那么您将无法控制创建的.pdf的类型。使用pdfimages -list
,我发现它以与输入相同的dpi输出.ccitt和.jpeg的组合。然后,尝试使用imagemagic将其转换为较低的dpi或其他压缩效果会很差。
我发现的替代方法是首先使用imagemagic将所有.tif转换为.png。然后,将.png逐个馈入到tesseract,为每个.png生成一个.pdf。在这种情况下,.pdf现在包含光栅图像。然后可以将它们合并并使用imagemagic重新编码。
我在这里唯一能看到的缺点是如果 tesseract正在学习,因为它是OCR的文档(我不知道它是,但可能是),那么我们想给出一次处理整个文档,而不是一次一页。