我想将文档拆分成段落,为此,我正在使用。
String paragraph [] = documentData.split(“\。\ n”);
但它会从实际文档中删除。\ n 。我不想丢失那些令牌。另外,我想要那样的话,比如 Inc。 Jr。不应该被正则表达式拆分。
答案 0 :(得分:0)
这是一个非常基本的脚本,只是为了指出正确的方向:
console.log(resp.headers.get('Authorization'))
在不消耗它的情况下分割点的一种方法是使用外观。 Lookarounds匹配,但不消耗,使它们成为你想到的理想选择。在这种情况下,我分裂了以下模式:
String input = "Sentence one in paragraph one. Sentence two in paragraph one.\n Sentence one in paragraph two. Sentence two in paragraph two.";
String[] parts = input.split("(?<=\\.\n)\\s*");
for (String part : parts) {
System.out.println(part);
}
这断言在当前位置之前的是一个完整的止损后跟一个换行符。然后,在将段落打印到控制台之前,它会消耗任何可能分隔段落的空格。