应用错误收集

PDF to XML：PDFX的任何替代品，也可以提供元素标签信息？

时间：2016-11-06 07:20:36

标签： javascript php pdf extract data-extraction

我想知道是否有任何开源解决方案（可能是PHP类或Javascript），它可以提取与PDFX相同的信息：

PDFX目前可以提取的元素是：

前方

标题，摘要，作者，作者脚注

身体问题

正文，h1，h2，h3，图像，表格，图/表格标题，图/表格参考，书目项目，参考书目（引文）

附加功能

页眉，页脚，旁注，页码，电子邮件，URI

注意： -

我对使用FPDF或TCPDF等生成任何PDF文档不感兴趣。

我有兴趣提取所有H1标签，所有H2标签等内容。

0 个答案:

没有答案