正则表达式 - 删除HTML字符串的最后一个<p>段</p>

时间:2011-09-03 14:54:47

标签: c# regex html-parsing

我有一个从RSS源中提取的HTML结构,我需要删除它的一部分,但它不是流的独立部分。

所以我有

<p>Some Html... </p>
<br />
<p>The p section I want to remove</p>

是否有可以执行此操作的正则表达式模式?找到给定字符串的最后一个<p>段并将其删除?我正在使用C#作为Regex。

2 个答案:

答案 0 :(得分:5)

您确定要使用正则表达式吗?实际上我认为你应该只在你需要的时候使用它们。

为什么不考虑类似的事情(假设HTML格式正确并且没有嵌套段落):

string html = GetRSS();
int pStartIndex = html.LastIndexOf("<p>");
int pEndIndex = html.LastIndexOf("</p>");
string result = html.Remove(pStartIndex, pEndIndex - pStartIndex + 4);

或者你可以考虑使用更高级(也许更合适)的东西,比如HTML Agility Pack,或者(更糟糕的是如果你使用糟糕的html)集成的.NET XML解析器(编辑: 正如svicks所说,如果您选择此解决方案,请确保您使用的HTML也是有效的XML

答案 1 :(得分:0)

您可以使用此正则表达式替换<p>标记的最后一个匹配项。

// Begin with '<p>' followed by any character and then end with '</p>'
var pattern = @"<p>.*</p>"; 
var regex = new Regex(pattern);

var sourceString = @"<p>Some Html... </p>\n<br />\n<p>The p section I want to remove</p>";

var matchCollection = regex.Matches(sourceString);
if(matchCollection.Count > 0)
{
    sourceString.Replace(matchCollection[matchCollection.Count - 1].Value, string.Empty);
}