使用iTextSharp从PDF文件中提取文本时,我收到此错误:“无法找到图像数据或EI”
在仅包含图像的特定页面上会出现此错误。
原因可能是因为我试图提取文本而不检查页面中是否有任何文字内容?
答案 0 :(得分:1)
PDF规范中未指定内联图像。图像数据应包含在ID
和EI
运算符之间。但是图像数据本身可能包含“EI”。
在iText(夏普)中,图像数据被读取,直到遇到<whitespace>EI<whitespace>
。但是,有些EI<whitespace>
作为内嵌图像数据的结尾。对于那些内嵌图像,iText(Sharp)会抛出此异常。
如果这是您的PDF问题,您可以通过在found == 1
中将found <= 1
更改为InlineImageUtils.ParseInlineImageSamples()
来解决此问题:
http://sourceforge.net/p/itextsharp/code/HEAD/tree/trunk/src/core/iTextSharp/text/pdf/parser/InlineImageUtils.cs#l337
答案 1 :(得分:-1)
这是因为计算机分辨率太高而重新打印使用较低的分辨率。没关系,但基本的配置文件仍然来自源代码。也就是说支持许多计算机分辨率。