使用tesseract将扫描的pdf转换为.txt文件

时间:2014-01-31 05:02:01

标签: tesseract

我必须将包含扫描图像的.pdf文件转换为.txt文件。 tesseract ocr仅将图像转换为.txt。但我需要首先提取.tif图像然后转换它。任何人都可以帮我吗?

1 个答案:

答案 0 :(得分:19)

使用Imagemagick:

convert -density 600 input.pdf output.tif

密度是DPI,根据我的经验600 DPI效果最佳。