c# - 访问Acrobat OCR识别的文本 - Thinbug

访问Acrobat OCR识别的文本

时间：2010-06-25 05:59:49

标签： c# pdf ocr

我有使用 OCR文字识别 - ＆gt;“识别”的PDF文件。在Acrobat中使用OCR 功能识别文本。

我想将这些作为上传（C＃ASP.NET MVC）并能够提取此信息以用于索引和搜索目的。

我尝试打开PDF文件，但我找不到任何已识别的文字，所以我猜它是压缩和/或编码的。

有什么想法吗？

1 个答案:

答案 0 :(得分：3)

有一篇关于CodeProject的文章解释了如何extract text from PDF使用C＃。
xpdf和poppler拥有pdftotext个工具。