java - 使用PDF2Dom从PDF中提取字体大小和粗体

PDF2Dom（基于PDFBox库）能够将PDF转换为HTML格式，并保留诸如字体大小，粗体度等特征。此对话的示例如下所示：

private void generateHTMLFromPDF(String filename) {
PDDocument pdf = PDDocument.load(new File(filename));
Writer output = new PrintWriter("src/output/pdf.html", "utf-8");
new PDFDomTree().writeText(pdf, output);

output.close();}

我正在尝试分析现有的PDF并逐行提取这些特征，我想知道PDF2Dom / PDFBox中是否有任何现有方法可以直接从PDF解析这些特征？

另一种方法是仅使用HTML输出并从那里开始，但这似乎是不必要的绕道。

使用PDF2Dom从PDF中提取字体大小和粗体

0 个答案: