是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多列,提取机制需要以某种方式知道逻辑结构。我知道有些PDF文档被“标记”但我需要支持几乎任何PDF文档。
这里有救援的第三方组件吗?
答案 0 :(得分:5)
答案 1 :(得分:2)
有些PDF是扫描,因此需要OCR(不容易,至少可以说)。
有些PDF是压缩的,有些(很少见)是裸PDF。
PDF文件格式本身已有详细记录,但是当从简单的单列文档中提取正确的“结构”时,您需要一个很高的订单。 PDF在内部表示如果每行文本都以绝对定位位于DIV中,HTML的外观如何。