我有一个项目需要阅读docx文件的所有内容,但我不知道如何获取它。我能得到的所有东西都只是段落列表。我也希望在Textbox中获取数据 这是我的代码:
List<Object> texts = getAllElementFromObject(document.getMainDocumentPart(), P.class);
我尝试使用方法getAllElementFromObject(document.getMainDocumentPart(), CTTextbox.class);
但仍然无法获取文本框数据。
我的方法getAllElementFromObject()
:
public static List<Object> getAllElementFromObject(Object obj, Class<?> toSearch) {
List<Object> result = new ArrayList<Object>();
if (obj instanceof JAXBElement) obj = ((JAXBElement<?>) obj).getValue();
if (obj.getClass().equals(toSearch))
result.add(obj);
else if (obj instanceof ContentAccessor) {
List<?> children = ((ContentAccessor) obj).getContent();
for (Object child : children) {
result.addAll(getAllElementFromObject(child, toSearch));
}
}
return result;
}
答案 0 :(得分:0)
在Word中创建的文本框类似于:
<w:p >
<w:r >
<w:pict>
<v:shapetype o:spt="202.0" path="m,l,21600r21600,l21600,xe" coordsize="21600,21600" id="_x0000_t202">
<v:stroke joinstyle="miter"/>
<v:path gradientshapeok="t" o:connecttype="rect"/>
</v:shapetype>
<v:shape o:gfxdata="UEsDB..8EAABkcnMvZG93bnJldzAAAAhwUAAAAA" type="#_x0000_t202" style="position:absolute;margin-left:0;margin-top:0;width:186.95pt;height:110.55pt;z-index:251659264;visibility:visible;mso-wrap-style:square;mso-width-percent:400;mso-height-percent:200;mso-wrap-distance-left:9pt;mso-wrap-distance-top:0;mso-wrap-distance-right:9pt;mso-wrap-distance-bottom:0;mso-position-horizontal:center;mso-position-horizontal-relative:text;mso-position-vertical:absolute;mso-position-vertical-relative:text;mso-width-percent:400;mso-height-percent:200;mso-width-relative:margin;mso-height-relative:margin;v-text-anchor:top" id="Text Box 2" o:spid="_x0000_s1026">
<v:textbox style="mso-fit-shape-to-text:t">
<w:txbxContent>
<w:p >
<w:r>
<w:t>foo</w:t>
</w:r>
</w:p>
</w:txbxContent>
</v:textbox>
</v:shape>
</w:pict>
</w:r>
</w:p>
这里的相关对象是:
由于Pict未实现ContentAccessor,因此您的代码无效。
相反,请尝试https://github.com/plutext/docx4j/blob/master/src/main/java/org/docx4j/finders/ClassFinder.java