应用错误收集

在PDF-itextsharp中提取表示为图像的文本

时间：2013-06-07 15:05:59

标签： c# pdf itextsharp itext

我正在使用ITextSharp从PDF文件中提取文本，我已经成功提取了我感兴趣的文本的一部分但是当我继续我的'text'提取时，我注意到了一些TEXT单词（使用itextsharp从整个页面提取整个文本时我无法获得文本）实际上表示为IMAGES。这已由Adobe Reader确认。因此，简而言之：如何提取PDF Image对象中包含的文本？我是否必须提取图像并找到将其转换为文本的另一种方法？对我来说，这是一个非常可怕的行星对齐方式.. 有人有这个问题吗？

1 个答案:

答案 0 :(得分：4)

我会说是的，你必须找到另一种方式：如果pdf中的“text”实际上根本不在文本层中，但只是一个代表某些文本的图像，你将不得不提取然后在它们上运行OCR（光学字符识别，从图像生成文本的术语）。 ITextSharp不是OCR引擎。（但是如果你看的话，确实存在一些免费的OCR引擎。）