使用PDF2Dom从PDF中提取字体大小和粗体

时间:2018-11-13 16:25:36

标签: java pdf pdfbox

PDF2Dom(基于PDFBox库)能够将PDF转换为HTML格式,并保留诸如字体大小,粗体度等特征。此对话的示例如下所示:

private void generateHTMLFromPDF(String filename) {
PDDocument pdf = PDDocument.load(new File(filename));
Writer output = new PrintWriter("src/output/pdf.html", "utf-8");
new PDFDomTree().writeText(pdf, output);

output.close();}

我正在尝试分析现有的PDF并逐行提取这些特征,我想知道PDF2Dom / PDFBox中是否有任何现有方法可以直接从PDF解析这些特征?

另一种方法是仅使用HTML输出并从那里开始,但这似乎是不必要的绕道。

0 个答案:

没有答案