我正在寻找一种从PDF中提取语义结构信息(如标题,标题,段落或列表)的方法。因为我想从PDF获得纯粹的结构数据。
最后,我想从PDF创建一个纯XHTML。只有结构信息。没有设计或布局。
我知道,PDF可以在没有任何结构信息的情况下创建。我不认为这些PDF。只考虑定期结构良好的PDF。
我是PDF的新手。所以我不知道它是否提供了规则的语义结构。如果它存在,它的库将提供它。所以我想知道PDF规范是否具有这些信息,以及获取这些信息的最佳方式。
答案 0 :(得分:1)
我强烈建议您阅读PDF规范:
http://www.adobe.com/devnet/acrobat/pdfs/PDF32000_2008.pdf
文档中没有“语义结构”,就像您在HTML文件中找到的那样;它要复杂得多。
文件格式主要基于COS对象树,它本质上是一组以各种方式相互引用的对象,但不是以任何特定顺序(有一些例外)。
其中一些对象包含您可能会遇到的内容(文档等)。而且,这些对象可以用各种方式编码。
非常复杂。
我建议您查看一些发展良好的PDF库,如iText:
答案 1 :(得分:0)
“结构良好”是什么意思?
如果PDF包含标记内容,您可以获得几乎完美的语义数据提取。否则它根本就不存在,但在某些情况下可能会“猜到”。