如何仅为XWPFWordExtractor(POI库)Java提取段落而不是整个文本

时间:2010-03-30 11:53:13

标签: java

我知道以下代码可以提取docx文档的全文,但是,我需要提取段落。有可能吗?

public static String extractText(InputStream in)抛出异常{

    JOptionPane.showMessageDialog(null, "Start extracting docx");
   XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;

}

任何帮助都会非常感激。我迫切需要这个。

3 个答案:

答案 0 :(得分:2)

在简要查看API之后,这只是一个猜测:

doc.getParagraphs()

API的链接:http://poi.apache.org/apidocs/org/apache/poi/xwpf/usermodel/XWPFDocument.html#getParagraphs()

答案 1 :(得分:0)

我为此编写了实用程序方法,如下所示:

 [RegularExpression(@"^[a-zA-Z0-9'_\-.&#@$]{8,}$", ErrorMessage = "Invalid Password")]

答案 2 :(得分:0)

虽然,这个问题已经很久了。我正在回答,如果有人的浏览器在这里寻求回答,我希望能提供帮助。

XWPFDocument document = new XWPFDocument(fis);
List<XWPFParagraph> paragraphs = document.getParagraphs();

for(XWPFParagraph paragraph: paragraphs){
  System.out.println("Text in this paragraph: " + paragraph.getText());          
    }
System.out.println("Total no of paragraph in Docx : "+paragraphs.size());

希望这有帮助!