Question

使用带有任一策略的iTextSharp（v.5.5.6）从此PDF文件中提取的文本缺少标题（以粗体显示）：

此外，在提取期间（第40页IIRC），我收到了一个例外：

Unable to handle Content of type iTextSharp.text.pdf.PdfDictionary

我通过向GetContentBytesFromContentObject添加代码来忽略PdfDictionary个对象来处理异常，但我仍然对如何正确提取文本感到茫然。

我强烈怀疑问题是缺少的文本是PDF书签大纲的一部分，GetTextFromPage()不知道如何处理书签，当然也不知道如何放置书签文字与文本的其余部分一起。

任何人都可以确认这是问题吗？有解决方法吗？

这是另一个没有问题的提取网址，它也有书签：

我无法控制PDF，它们是由政府机构制作的。