使用Java读取docx文档

时间:2018-06-26 08:12:39

标签: java apache-poi docx

我有一个项目隐秘术,可以将docx文档隐藏到jpeg图像中。使用apache POI,我可以运行它并读取docx文档,但只能读取字母。

即使其中有图片。

这是代码

FileInputStream in = null;
    try
    {
        in = new FileInputStream(directory);
        XWPFDocument datax = new XWPFDocument(in);
        XWPFWordExtractor extract = new XWPFWordExtractor(datax);
        String DataFinal = extract.getText();
        BufferedReader reader = new BufferedReader(new InputStreamReader(in));
        String line = null;
        this.isi_file = extract.getText();
    }
    catch (IOException x) {}
        System.out.println("isi :" + this.isi_file);

如何使用Java读取docx文档中的所有组件?请帮助我,谢谢您的帮助。

1 个答案:

答案 0 :(得分:3)

请检查documentationXWPFDocument类。它包含一些有用的方法,例如:

您的代码段中有第XWPFDocument datax = new XWPFDocument(in);行。因此,在该行之后,您可以编写一些代码,例如:

// process all pictures in document
for (XWPFPictureData picture : datax.getAllPictures()) {
    // get each picture as byte array
    byte[] pictureData = picture.getData();
    // process picture somehow
    ...
}