将PDF文本作为分层数据读取

时间:2018-06-14 13:38:26

标签: c# .net pdf itext

我正在尝试用c#读取PDF文件,这种典型PDF的格式是包含页面标题,子标题和内容等的内容。数据更像是层次结构而不是平面。

我实际上想要读取数据层次结构,如下所示:

enter image description here

我尝试了iText Sharp,我只能将每个页面作为普通文本阅读,文本中包含页眉,页脚,页码等,这对我来说是多余的。

有没有办法可以将PDF页面作为分层页面/内容阅读?

1 个答案:

答案 0 :(得分:1)

没有。你最接近的是' pdf到html'那么你可以阅读html标签。

您需要文字和布局。准备好大量的解析,为什么他们这样做呢?'时刻:))

对于大多数事情,我可以使用原始文本。它可能会被LF而不是CRLF分开,但这很好。