Question

我正在尝试使用tesseract OCR pdf文件，但它说：

Tesseract开源OCR引擎name_to_image_type：错误：无法识别图像类型：upload526.pdf IMAGE :: read_header：错误：无法读取此内容图像类型：upload526.pdf tesseract：错误：读取文件失败：upload526.pdf分段错误

我需要它来创建一个数据库来搜索手动扫描的pdf（到图像）...我做错了什么？我读到它支持pdf ...不知道它是什么版本tesseract --version或tesseract -v根本不起作用。

Answer 1

Tesseract不读PDF。您需要先将其转换为图像格式（TIFF，PNG）。尝试GhostScript，ImageMagick，编程等。

Answer 2

你可以尝试一下这个（ImageMagick库）：

convert -density 300 file.pdf -depth 8 file.tiff  
tesseract file.tiff output