如何通过docx4j获取docx文件中的Textbox数据

时间:2016-12-23 04:54:48

标签: java textbox docx4j

我有一个项目需要阅读docx文件的所有内容,但我不知道如何获取它。我能得到的所有东西都只是段落列表。我也希望在Textbox中获取数据 这是我的代码:

List<Object> texts = getAllElementFromObject(document.getMainDocumentPart(), P.class);

我尝试使用方法getAllElementFromObject(document.getMainDocumentPart(), CTTextbox.class);

但仍然无法获取文本框数据。

我的方法getAllElementFromObject()

    public static List<Object> getAllElementFromObject(Object obj, Class<?> toSearch) {
    List<Object> result = new ArrayList<Object>();
    if (obj instanceof JAXBElement) obj = ((JAXBElement<?>) obj).getValue();

    if (obj.getClass().equals(toSearch))
        result.add(obj);
    else if (obj instanceof ContentAccessor) {
        List<?> children = ((ContentAccessor) obj).getContent();
        for (Object child : children) {
            result.addAll(getAllElementFromObject(child, toSearch));
        }
    }
    return result;
}

1 个答案:

答案 0 :(得分:0)

在Word中创建的文本框类似于:

    <w:p >
        <w:r >
            <w:pict>
                <v:shapetype o:spt="202.0" path="m,l,21600r21600,l21600,xe" coordsize="21600,21600" id="_x0000_t202">
                    <v:stroke joinstyle="miter"/>
                    <v:path gradientshapeok="t" o:connecttype="rect"/>
                </v:shapetype>
                <v:shape o:gfxdata="UEsDB..8EAABkcnMvZG93bnJldzAAAAhwUAAAAA" type="#_x0000_t202" style="position:absolute;margin-left:0;margin-top:0;width:186.95pt;height:110.55pt;z-index:251659264;visibility:visible;mso-wrap-style:square;mso-width-percent:400;mso-height-percent:200;mso-wrap-distance-left:9pt;mso-wrap-distance-top:0;mso-wrap-distance-right:9pt;mso-wrap-distance-bottom:0;mso-position-horizontal:center;mso-position-horizontal-relative:text;mso-position-vertical:absolute;mso-position-vertical-relative:text;mso-width-percent:400;mso-height-percent:200;mso-width-relative:margin;mso-height-relative:margin;v-text-anchor:top" id="Text Box 2" o:spid="_x0000_s1026">
                    <v:textbox style="mso-fit-shape-to-text:t">
                        <w:txbxContent>
<w:p >
    <w:r>
        <w:t>foo</w:t>
    </w:r>
</w:p>
                            </w:txbxContent>
                        </v:textbox>
                    </v:shape>
                </w:pict>
            </w:r>
        </w:p>

这里的相关对象是:

  • org.docx4j.vml.CTTextbox
  • org.docx4j.wml.CTTxbxContent(可能包含内容控件)

由于Pict未实现ContentAccessor,因此您的代码无效。

相反,请尝试https://github.com/plutext/docx4j/blob/master/src/main/java/org/docx4j/finders/ClassFinder.java