为什么iText无法提取此文本?

时间:2015-08-18 19:48:15

标签: c# pdf itextsharp itext

使用带有任一策略的iTextSharp(v.5.5.6)从此PDF文件中提取的文本缺少标题(以粗体显示):

http://www.in.gov/legislative/iac/T03290/A00031.PDF

此外,在提取期间(第40页IIRC),我收到了一个例外:

Unable to handle Content of type iTextSharp.text.pdf.PdfDictionary

我通过向GetContentBytesFromContentObject添加代码来忽略PdfDictionary个对象来处理异常,但我仍然对如何正确提取文本感到茫然。

我强烈怀疑问题是缺少的文本是PDF书签大纲的一部分,GetTextFromPage()不知道如何处理书签,当然也不知道如何放置书签文字与文本的其余部分一起。

任何人都可以确认这是问题吗?有解决方法吗?

这是另一个没有问题的提取网址,它也有书签:

http://www.in.gov/legislative/iac/T03290/A00010.PDF

我无法控制PDF,它们是由政府机构制作的。

0 个答案:

没有答案