每次一行包含某个单词时,我都会尝试将文本拆分为段落。我已经设法在该单词的开头拆分文本,但不是在包含该单词的行的开头。什么是正确的表达?
这就是我所拥有的
string[] paragraphs = Regex.Split(text, @"(?=INT.|EXT.)");
我也希望丢失数组中的任何空段落。
这是输入
INT. LOCATION - DAY
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
LOCATION - EXT.
Morbi cursus dictum tempor. Phasellus mattis at massa non porta.
LOCATION INT. - NIGHT
我希望将其拆分保持相同的布局,但只是在段落中。
我的结果是
INT. LOCATION - DAY
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
LOCATION -
EXT.
Morbi cursus dictum tempor. Phasellus mattis at massa non porta.
LOCATION
INT. - NIGHT
新段落从单词开始而不是在行。
这是理想的结果
第1段
INT. LOCATION - DAY
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
第2段
LOCATION - EXT.
Morbi cursus dictum tempor. Phasellus mattis at massa non porta.
第3段
LOCATION INT. - NIGHT
段落应始终从包含单词INT的行的开头开始。或EXT。不是在这个词。
答案 0 :(得分:2)
Regex.Split(text, "(?=^.+?INT|^.+?EXT)", RegexOptions.Multiline);
检查此文字方案
string text = "INT. LOCATION - DAY\n" +
"Lorem ipsum dolor sit amet, consectetur adipiscing elit.\n" +
"LOCATION - EXT.\n" +
"Morbi cursus dictum tempor. Phasellus mattis at massa non porta.\n" +
"LOCATION INT. - NIGHT\n";
string[] res = Regex.Split(text, "(?=^.+?INT|^.+?EXT)", RegexOptions.Multiline);
for (int i = 0; i < res.Count(); i++)
{
int lineNumber = i + 1;
Console.WriteLine("paragraph " + lineNumber + "\n" + res[i]);
}
#paragraph 1
#INT. LOCATION - DAY
#Lorem ipsum dolor sit amet, consectetur adipiscing elit.
#paragraph 2
#LOCATION - EXT.
#Morbi cursus dictum tempor. Phasellus mattis at massa non porta.
#paragraph 3
#LOCATION INT. - NIGHT