使用iTextSharp库读取包含结构形式的pdf时获取InvalidPdfException

时间:2016-09-14 10:43:30

标签: c# asp.net .net itext

我正在尝试使用iTextSharp库从pdf文件中提取文本。它适用于具有简单纯文本的pdf文件,但对于在pdf的前几页中具有某种形式结构的文件,它会产生InvalidPDFException。

  

{"重建失败:未找到预告片。原始消息:在文件指针20"}

中找不到外部参照子部分
var pdfReader = new PdfReader("D:\\Finra PDF\\SR-FINRA-2015-058.pdf")

以上是发生异常的行。我还附上了只读形式的pdf第一页的图像。 PDF with first two pages having form like structure

Please click here for PDF Doc

请告诉我这是iTextSharp库的限制。如果有,那么有任何可用的开源库可以处理具有如此格式的丰富格式的pdf文档。 提前致谢

0 个答案:

没有答案