应用错误收集

将PDF文本作为分层数据读取

时间：2018-06-14 13:38:26

标签： c# .net pdf itext

我正在尝试用c＃读取PDF文件，这种典型PDF的格式是包含页面标题，子标题和内容等的内容。数据更像是层次结构而不是平面。

我实际上想要读取数据层次结构，如下所示：

我尝试了iText Sharp，我只能将每个页面作为普通文本阅读，文本中包含页眉，页脚，页码等，这对我来说是多余的。

有没有办法可以将PDF页面作为分层页面/内容阅读？

1 个答案:

答案 0 :(得分：1)

没有。你最接近的是＆＃39; pdf到html＆＃39;那么你可以阅读html标签。

您需要文字和布局。准备好大量的解析，为什么他们这样做呢？＆＃39;时刻:)）

对于大多数事情，我可以使用原始文本。它可能会被LF而不是CRLF分开，但这很好。