我正在尝试用c#读取PDF文件,这种典型PDF的格式是包含页面标题,子标题和内容等的内容。数据更像是层次结构而不是平面。
我实际上想要读取数据层次结构,如下所示:
我尝试了iText Sharp,我只能将每个页面作为普通文本阅读,文本中包含页眉,页脚,页码等,这对我来说是多余的。
有没有办法可以将PDF页面作为分层页面/内容阅读?
答案 0 :(得分:1)
没有。你最接近的是' pdf到html'那么你可以阅读html标签。
您需要文字和布局。准备好大量的解析,为什么他们这样做呢?'时刻:))
对于大多数事情,我可以使用原始文本。它可能会被LF而不是CRLF分开,但这很好。