我的初始输入是彩色多列JPG文件。我在此运行image magick来创建一个TIFF文件,然后执行OCR,将TIFF转换为PDF格式,文本为可搜索的形式。 问题是因为Imagemagick的TIFF输出是单色的(必须用于tesseract正确提取文本)最终的PDF是单色的,文本可以在其上突出显示。我想弄清楚的是,当Imagemagick将其转换为TIFF时,有没有办法保留原始文档的颜色? 我在Ubuntu 14.0上运行 目标是从彩色JPG图像开始(书籍扫描,但我无法控制扫描过程,因此总是得到一个JPG),上面有文本并将其转换为PDF文件,看起来与JPG相同但是文本采用可搜索/可突出显示的格式。 我的imageMagick命令将JPG转换为tiff是 convert -density 300 MyImage.jpg -depth 8 -lat 30x30-5%MyImage.tiff
MyImage.tiff为黑白色,最适合Tesseract使用其OCR。
转换为PDF的Tesseract命令是 tesseract MyImage.tiff MyImage pdf
但最终的PDF将是黑白的。我想要的是文本覆盖在原始JPG的彩色版本上。 如果使用单色输入tiff文件,Tesseract只能提供不错的结果