在PDF-itextsharp中提取表示为图像的文本

时间:2013-06-07 15:05:59

标签: c# pdf itextsharp itext

我正在使用ITextSharp从PDF文件中提取文本,我已经成功提取了我感兴趣的文本的一部分但是当我继续我的'text'提取时,我注意到了一些TEXT单词(使用itextsharp从整个页面提取整个文本时我无法获得文本)实际上表示为IMAGES。这已由Adobe Reader确认。 因此,简而言之:如何提取PDF Image对象中包含的文本?我是否必须提取图像并找到将其转换为文本的另一种方法? 对我来说,这是一个非常可怕的行星对齐方式.. 有人有这个问题吗?

1 个答案:

答案 0 :(得分:4)

我会说是的,你必须找到另一种方式:如果pdf中的“text”实际上根本不在文本层中,但只是一个代表某些文本的图像,你将不得不提取然后在它们上运行OCR(光学字符识别,从图像生成文本的术语)。 ITextSharp不是OCR引擎。 (但是如果你看的话,确实存在一些免费的OCR引擎。)