我正在尝试使用iTextSharp库从pdf文件中提取文本。它适用于具有简单纯文本的pdf文件,但对于在pdf的前几页中具有某种形式结构的文件,它会产生InvalidPDFException。
{"重建失败:未找到预告片。原始消息:在文件指针20"}
中找不到外部参照子部分
var pdfReader = new PdfReader("D:\\Finra PDF\\SR-FINRA-2015-058.pdf")
以上是发生异常的行。我还附上了只读形式的pdf第一页的图像。
请告诉我这是iTextSharp库的限制。如果有,那么有任何可用的开源库可以处理具有如此格式的丰富格式的pdf文档。 提前致谢