我的目标是从PDF中检索可能是表结构的数据到excel文件。
使用带有iTextSharp的LocationTextExtractionStrategy,我们可以以纯文本形式获取字符串数据,页面内容从左到右。
如何在
期间前进PdfTextExtractor.GetTextFromPage(reader,i,new LocationTextExtractionStrategy())
我可以让文本在结果字符串中保留其坐标。
例如,如果pdf中的第一行文本右对齐,则结果字符串必须包含尾随空格或空格,以保持内容右对齐。
请提出一些建议,我将如何继续实现这一目标。
答案 0 :(得分:9)
了解PDF 不支持表格非常重要。 看起来像桌子一样的东西实际上只是放在线条背景上的特定位置的一堆文字。这非常重要,您需要在处理此事时牢记这一点。
那就是说,你需要继承TextExtractionStrategy
并将其传递给GetTextFromPage()
。有关该示例的简单示例,请参阅this post。然后see this post获取更复杂的子类化示例。后者与你的目标并不完全相关,但它确实显示了一些你可以做的更复杂的事情。