PDF2Dom(基于PDFBox库)能够将PDF转换为HTML格式,并保留诸如字体大小,粗体度等特征。此对话的示例如下所示:
private void generateHTMLFromPDF(String filename) {
PDDocument pdf = PDDocument.load(new File(filename));
Writer output = new PrintWriter("src/output/pdf.html", "utf-8");
new PDFDomTree().writeText(pdf, output);
output.close();}
我正在尝试分析现有的PDF并逐行提取这些特征,我想知道PDF2Dom / PDFBox中是否有任何现有方法可以直接从PDF解析这些特征?
另一种方法是仅使用HTML输出并从那里开始,但这似乎是不必要的绕道。