我正在尝试使用tesseract
OCR pdf文件,但它说:
Tesseract开源OCR引擎name_to_image_type:错误:无法识别 图像类型:upload526.pdf IMAGE :: read_header:错误:无法读取此内容 图像类型:upload526.pdf tesseract:错误:读取文件 失败:upload526.pdf分段错误
我需要它来创建一个数据库来搜索手动扫描的pdf(到图像)...我做错了什么?我读到它支持pdf ...不知道它是什么版本tesseract --version
或tesseract -v
根本不起作用。
答案 0 :(得分:1)
Tesseract不读PDF。您需要先将其转换为图像格式(TIFF,PNG)。尝试GhostScript,ImageMagick,编程等。
答案 1 :(得分:1)
你可以尝试一下这个(ImageMagick库):
convert -density 300 file.pdf -depth 8 file.tiff
tesseract file.tiff output