如何从docx4j运行中简洁地提取文本?

时间:2019-06-13 13:41:22

标签: java docx4j wordprocessingml

我想使用docx4j从document.xml的运行中提取文本,如下所示:

<w:document mc:Ignorable="w14 w15 w16se wp14">
<w:body>
<w:r>
  <w:rPr>
    <w:rFonts w:ascii="TimesNewRomanRegular" w:hAnsi="TimesNewRomanRegular" w:cs="TimesNewRomanRegular"/>
    <w:b/>
    <w:sz w:val="19"/>
    <w:szCs w:val="19"/>
    <w:lang w:val="en-US"/>
  </w:rPr>
  <w:t>CEO</w:t>
</w:r>
...

我提取了运行,现在我想获取每个运行的文本。下面的代码有效,但是非常冗长。是否可以更简洁地获取org.docx4j.wml.R实例的文本?

public static Optional<String> runText(org.docx4j.wml.R run)
{
        return run.getContent()
                .stream()
                .map(JAXBElement.class::cast)
                .map(JAXBElement::getValue)
                .filter(Text.class::isInstance)
                .map(Text.class::cast)
                .map(Text::getValue)
                .findFirst();
}

虽然存在“ R :: getContent”和“ R :: getRPr”,但我想知道为什么文本文档中不存在“ R :: getText”。

1 个答案:

答案 0 :(得分:1)

请参见https://github.com/plutext/docx4j/blob/master/docx4j-core/src/main/java/org/docx4j/TextUtils.java#L55

针对哪个Javadoc:

/**
 * Extract contents of descendant <w:t> elements. 
 * 
 * @param o
 * @return String
 * @since 6.0.0
 */