拆分句点但忽略一些包含java句点的单词

时间:2017-12-07 06:01:28

标签: java arrays regex string

我想将文档拆分成段落,为此,我正在使用。

  

String paragraph [] = documentData.split(“\。\ n”);

但它会从实际文档中删除。\ n 。我不想丢失那些令牌。另外,我想要那样的话,比如 Inc。 Jr。不应该被正则表达式拆分。

1 个答案:

答案 0 :(得分:0)

这是一个非常基本的脚本,只是为了指出正确的方向:

 console.log(resp.headers.get('Authorization'))

在不消耗它的情况下分割点的一种方法是使用外观。 Lookarounds匹配,但不消耗,使它们成为你想到的理想选择。在这种情况下,我分裂了以下模式:

String input = "Sentence one in paragraph one.  Sentence two in paragraph one.\n Sentence one in paragraph two.  Sentence two in paragraph two.";
String[] parts = input.split("(?<=\\.\n)\\s*");
for (String part : parts) {
    System.out.println(part);
}

这断言在当前位置之前的是一个完整的止损后跟一个换行符。然后,在将段落打印到控制台之前,它会消耗任何可能分隔段落的空格。

Demo