标签: javascript php pdf extract data-extraction
我想知道是否有任何开源解决方案(可能是PHP类或Javascript),它可以提取与PDFX相同的信息:
PDFX目前可以提取的元素是:
前方
标题,摘要,作者,作者脚注
身体问题
正文,h1,h2,h3,图像,表格,图/表格标题,图/表格参考,书目项目,参考书目(引文)
附加功能
页眉,页脚,旁注,页码,电子邮件,URI
注意: -
我对使用FPDF或TCPDF等生成任何PDF文档不感兴趣。
我有兴趣提取所有H1标签,所有H2标签等内容。