tesseract ocr pdf - 分段错误

时间:2014-12-12 18:30:48

标签: tesseract

我正在尝试使用tesseract OCR pdf文件,但它说:

  

Tesseract开源OCR引擎name_to_image_type:错误:无法识别   图像类型:upload526.pdf IMAGE :: read_header:错误:无法读取此内容   图像类型:upload526.pdf tesseract:错误:读取文件   失败:upload526.pdf分段错误

我需要它来创建一个数据库来搜索手动扫描的pdf(到图像)...我做错了什么?我读到它支持pdf ...不知道它是什么版本tesseract --versiontesseract -v根本不起作用。

2 个答案:

答案 0 :(得分:1)

Tesseract不读PDF。您需要先将其转换为图像格式(TIFF,PNG)。尝试GhostScript,ImageMagick,编程等。

答案 1 :(得分:1)

你可以尝试一下这个(ImageMagick库):

convert -density 300 file.pdf -depth 8 file.tiff  
tesseract file.tiff output