具有内嵌图像的iText GetTextFromPage异常

时间:2014-02-26 12:22:23

标签: c# pdf itextsharp itext

我遇到的问题与here所述的问题相同,但未解决。我的目标是从现有的pdf文件中提取文本。我收到某个pdf的错误消息Could not find image data or EI,我不能将其作为样本分享。它适用于其他pdf,使用以下代码

string fileURI = "C:\\Test\\Sample.pdf";
PdfReader reader = new PdfReader(fileURI);
ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
string s = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);
Debug.WriteLine(s);

我正在使用iTextSharp 5.5.0并尝试按其他帖子的建议将found == 1更改为found <= 1。它没有帮助。

删除pdf中的所有图片会有帮助吗?我真的只需要文字。来自iText的哪些命令可以帮助我解决这个问题?

1 个答案:

答案 0 :(得分:0)

我下载了Acrobat的试用版,以创建我可以分享的pdf文件版本。打开文件并将其作为“优化的PDF”再次保存在Acrobat上之后,代码正常工作,我可以提取文本。

因此问题的解决方案可能是在Acrobat中打开每个文件并使用Acrobat参考使用正确的设置再次保存,然后提取文本。