PDF to XML:PDFX的任何替代品,也可以提供元素标签信息?

时间:2016-11-06 07:20:36

标签: javascript php pdf extract data-extraction

我想知道是否有任何开源解决方案(可能是PHP类或Javascript),它可以提取与PDFX相同的信息:

PDFX目前可以提取的元素是:

前方

标题,摘要,作者,作者脚注

身体问题

正文,h1,h2,h3,图像,表格,图/表格标题,图/表格参考,书目项目,参考书目(引文)

附加功能

页眉,页脚,旁注,页码,电子邮件,URI

注意: -

我对使用FPDF或TCPDF等生成任何PDF文档不感兴趣。

我有兴趣提取所有H1标签,所有H2标签等内容。

0 个答案:

没有答案