使用pdfbox将pdf转换为html时,如何添加自定义字体?

时间:2018-06-19 12:18:46

标签: java html pdf pdfbox

我正在使用pdfbox-2.0.9,我编写了将pdf转换为PDDocument的代码,并使用PDFDomTree解析dom树并生成了html文档,但是字体在输出html中变得一团糟。我意识到有14种标准字体,而我所需的字体不在标准列表中。

那么,有没有办法在PDDocument.load(pdfFile)方法调用之前或与之一起播种自定义字体,或者是否有任何其他方法使用自定义字体将pdf转换为html?

public String convertToHtml(File pdfFile, String destinationDir) {

        if (!destinationDir.endsWith("/")) {
            destinationDir += "/";
        }

        String outfile = "";
        String fileName = pdfFile.getName();

        if (fileName.toLowerCase().endsWith(".pdf"))
            fileName = fileName.substring(0, fileName.length() - 4);
        outfile = destinationDir + fileName + ".html";

        PDDocument document = null;
        try {
            File outputHtml = new File(outfile);
            outputHtml.getParentFile().mkdirs();
            outputHtml.createNewFile();

            document = PDDocument.load(pdfFile);
            PDFDomTree parser = new PDFDomTree(PDFDomTreeConfig.createDefaultConfig());
            Writer output = new PrintWriter(outfile, "utf-8");

            parser.writeText(document, output);
            output.close();
        } catch (Exception e) {
            logger.log(Level.SEVERE, "Error: ", e.getMessage());
        } finally {
            if (document != null) {
                try {
                    document.close();
                } catch (IOException e) {
                    logger.log(Level.SEVERE, "Error: " + e.getMessage());
                }
            }
        }
        return outfile;
    }

谢谢。

0 个答案:

没有答案