标签: c# pdf ocr tesseract
我想在png和pdf文件上执行OCR。我能够为png文件获取Tesseract 3.0.2 .net包装器工作但是我找不到PDf文件中的任何类。所以,它是否为pdf文件工作。如果没有,请告诉我任何其他用于扫描pdfs的开源库。我的要求是在特定圈子的pdf中扫描图表,并为这些圈子创建超链接。
答案 0 :(得分:1)
不,它没有。您必须先从pdf中提取图像。这可以使用Zakk Diaz建议的pdfimages pdfimages.exe -j your.pdf或gs来完成。
pdfimages.exe -j your.pdf