Question

我知道以下代码可以提取docx文档的全文，但是，我需要提取段落。有可能吗？

public static String extractText（InputStream in）抛出异常{

    JOptionPane.showMessageDialog(null, "Start extracting docx");
   XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;

}

任何帮助都会非常感激。我迫切需要这个。

Answer 1

在简要查看API之后，这只是一个猜测：

doc.getParagraphs()

API的链接：http://poi.apache.org/apidocs/org/apache/poi/xwpf/usermodel/XWPFDocument.html#getParagraphs()

Answer 2

我为此编写了实用程序方法，如下所示：

 [RegularExpression(@"^[a-zA-Z0-9'_\-.&#@$]{8,}$", ErrorMessage = "Invalid Password")]

Answer 3

虽然，这个问题已经很久了。我正在回答，如果有人的浏览器在这里寻求回答，我希望能提供帮助。

XWPFDocument document = new XWPFDocument(fis);
List<XWPFParagraph> paragraphs = document.getParagraphs();

for(XWPFParagraph paragraph: paragraphs){
  System.out.println("Text in this paragraph: " + paragraph.getText());          
    }
System.out.println("Total no of paragraph in Docx : "+paragraphs.size());

希望这有帮助！

如何仅为XWPFWordExtractor（POI库）Java提取段落而不是整个文本

3 个答案: