应用错误收集

时间：2010-02-05 09:46:14

标签： pdf structure semantics

我正在寻找一种从PDF中提取语义结构信息（如标题，标题，段落或列表）的方法。因为我想从PDF获得纯粹的结构数据。

最后，我想从PDF创建一个纯XHTML。只有结构信息。没有设计或布局。

我知道，PDF可以在没有任何结构信息的情况下创建。我不认为这些PDF。只考虑定期结构良好的PDF。

我是PDF的新手。所以我不知道它是否提供了规则的语义结构。如果它存在，它的库将提供它。所以我想知道PDF规范是否具有这些信息，以及获取这些信息的最佳方式。

答案 0 :(得分：1)

我强烈建议您阅读PDF规范：

文档中没有“语义结构”，就像您在HTML文件中找到的那样;它要复杂得多。

文件格式主要基于COS对象树，它本质上是一组以各种方式相互引用的对象，但不是以任何特定顺序（有一些例外）。

其中一些对象包含您可能会遇到的内容（文档等）。而且，这些对象可以用各种方式编码。

非常复杂。

我建议您查看一些发展良好的PDF库，如iText：

答案 1 :(得分：0)

“结构良好”是什么意思？

如果PDF包含标记内容，您可以获得几乎完美的语义数据提取。否则它根本就不存在，但在某些情况下可能会“猜到”。