应用错误收集

我的初始输入是彩色多列JPG文件。我在此运行image magick来创建一个TIFF文件，然后执行OCR，将TIFF转换为PDF格式，文本为可搜索的形式。问题是因为Imagemagick的TIFF输出是单色的（必须用于tesseract正确提取文本）最终的PDF是单色的，文本可以在其上突出显示。我想弄清楚的是，当Imagemagick将其转换为TIFF时，有没有办法保留原始文档的颜色？我在Ubuntu 14.0上运行目标是从彩色JPG图像开始（书籍扫描，但我无法控制扫描过程，因此总是得到一个JPG），上面有文本并将其转换为PDF文件，看起来与JPG相同但是文本采用可搜索/可突出显示的格式。我的imageMagick命令将JPG转换为tiff是 convert -density 300 MyImage.jpg -depth 8 -lat 30x30-5％MyImage.tiff

MyImage.tiff为黑白色，最适合Tesseract使用其OCR。

转换为PDF的Tesseract命令是 tesseract MyImage.tiff MyImage pdf

但最终的PDF将是黑白的。我想要的是文本覆盖在原始JPG的彩色版本上。如果使用单色输入tiff文件，Tesseract只能提供不错的结果

使用Image magick - tesseract进行OCR时保留颜色组合

0 个答案: