使用docx4j将docx转换为PDF时丢失文本提示

时间:2018-06-20 08:38:07

标签: java pdf pdf-generation docx docx4j

我正在使用以下代码将MS Word docx文件转换为pdf。

  private static ByteArrayOutputStream convertToPDFDocx4j(String inputfilepath) throws Exception {


    WordprocessingMLPackage wordMLPackage =
        WordprocessingMLPackage.load(new java.io.File(inputfilepath));

    FieldUpdater updater = new FieldUpdater(wordMLPackage);
    updater.update(true);
    Mapper fontMapper = new IdentityPlusMapper();
    wordMLPackage.setFontMapper(fontMapper);
    FOSettings foSettings = Docx4J.createFOSettings();
    foSettings.setWmlPackage(wordMLPackage);
    ByteArrayOutputStream baos = new ByteArrayOutputStream();
    Docx4J.toFO(foSettings, baos, Docx4J.FLAG_EXPORT_PREFER_XSL);

    if (wordMLPackage.getMainDocumentPart().getFontTablePart() != null) {
      wordMLPackage.getMainDocumentPart().getFontTablePart().deleteEmbeddedFontTempFiles();
    }

    updater = null;
    foSettings = null;
    wordMLPackage = null;
    return baos;
  }

尽管生成了pdf,但它失去了文本对齐方式。

MS Word格式: MS Word Format

生成的PDF: Generated PDF

我在以下链接中上传了单词并生成了pdf文件:

MS Word Document

Generated PDF

1 个答案:

答案 0 :(得分:1)

您的表格单元格包含:

      <w:p>
        <w:pPr>
          <w:tabs>
            <w:tab w:val="right" w:pos="14175"/>
          </w:tabs>
          <w:rPr>
            <w:rFonts w:cs="Arial"/>
            <w:b/>
            <w:color w:val="FFFFFF" w:themeColor="background1"/>
          </w:rPr>
        </w:pPr>

w:tabs元素正在触发https://github.com/plutext/docx4j-export-FO/blob/master/src/main/java/org/docx4j/convert/out/fo/XsltFOFunctions.java#L739,但是在这种情况下是不需要的。

一种解决方法是删除右对齐的标签。