tesseract OCR for .net是否适用于pdf文件?

时间:2016-12-27 08:03:03

标签: c# pdf ocr tesseract

我想在png和pdf文件上执行OCR。我能够为png文件获取Tesseract 3.0.2 .net包装器工作但是我找不到PDf文件中的任何类。所以,它是否为pdf文件工作。如果没有,请告诉我任何其他用于扫描pdfs的开源库。我的要求是在特定圈子的pdf中扫描图表,并为这些圈子创建超链接。

1 个答案:

答案 0 :(得分:1)

不,它没有。您必须先从pdf中提取图像。这可以使用Zakk Diaz建议的pdfimages pdfimages.exe -j your.pdf或gs来完成。