应用错误收集

什么是tesseract最好的图像输入类型？

时间：2012-04-17 14:17:24

标签： image-processing ocr tesseract

我在项目中使用tesseract并且想知道tesseract的最佳图像输入类型以提供最佳输出，Binary＆amp; TIFF是最好的输入还是其他的东西？

3 个答案:

答案 0 :(得分：8)

过去使用TIFF进行类似的任务我有很好的结果。当时我使用OpenCV做了一些pre-processing并将结果导出到TIFF文件，后来被发送到tesseract。非常好。

答案 1 :(得分：3)

我发现TIFF给jpg带来了更好的结果，同时也是最好的对抗所有其他类型的。

最初的Tesseract程序只适用于TIFF文件，让我相信它是最合适的

答案 2 :(得分：0)

使用.tif的优势在于（1）scantailor输出.tif文件，以及（2）可以使用tiffcp将单个.tif合并为单个多页文件，然后将其馈送到tesseract。困难在于，如果tesseract输出了.pdf，那么您将无法控制创建的.pdf的类型。使用pdfimages -list，我发现它以与输入相同的dpi输出.ccitt和.jpeg的组合。然后，尝试使用imagemagic将其转换为较低的dpi或其他压缩效果会很差。

我发现的替代方法是首先使用imagemagic将所有.tif转换为.png。然后，将.png逐个馈入到tesseract，为每个.png生成一个.pdf。在这种情况下，.pdf现在包含光栅图像。然后可以将它们合并并使用imagemagic重新编码。

我在这里唯一能看到的缺点是如果 tesseract正在学习，因为它是OCR的文档（我不知道它是，但可能是），那么我们想给出一次处理整个文档，而不是一次一页。