使用带有任一策略的iTextSharp(v.5.5.6)从此PDF文件中提取的文本缺少标题(以粗体显示):
http://www.in.gov/legislative/iac/T03290/A00031.PDF
此外,在提取期间(第40页IIRC),我收到了一个例外:
Unable to handle Content of type iTextSharp.text.pdf.PdfDictionary
我通过向GetContentBytesFromContentObject
添加代码来忽略PdfDictionary
个对象来处理异常,但我仍然对如何正确提取文本感到茫然。
我强烈怀疑问题是缺少的文本是PDF书签大纲的一部分,GetTextFromPage()
不知道如何处理书签,当然也不知道如何放置书签文字与文本的其余部分一起。
任何人都可以确认这是问题吗?有解决方法吗?
这是另一个没有问题的提取网址,它也有书签:
http://www.in.gov/legislative/iac/T03290/A00010.PDF
我无法控制PDF,它们是由政府机构制作的。