我有一个从RSS源中提取的HTML结构,我需要删除它的一部分,但它不是流的独立部分。
所以我有
<p>Some Html... </p>
<br />
<p>The p section I want to remove</p>
是否有可以执行此操作的正则表达式模式?找到给定字符串的最后一个<p>
段并将其删除?我正在使用C#作为Regex。
答案 0 :(得分:5)
您确定要使用正则表达式吗?实际上我认为你应该只在你需要的时候使用它们。
为什么不考虑类似的事情(假设HTML格式正确并且没有嵌套段落):
string html = GetRSS();
int pStartIndex = html.LastIndexOf("<p>");
int pEndIndex = html.LastIndexOf("</p>");
string result = html.Remove(pStartIndex, pEndIndex - pStartIndex + 4);
或者你可以考虑使用更高级(也许更合适)的东西,比如HTML Agility Pack,或者(更糟糕的是如果你使用糟糕的html)集成的.NET XML解析器(编辑: 正如svicks所说,如果您选择此解决方案,请确保您使用的HTML也是有效的XML 。
答案 1 :(得分:0)
您可以使用此正则表达式替换<p>
标记的最后一个匹配项。
// Begin with '<p>' followed by any character and then end with '</p>'
var pattern = @"<p>.*</p>";
var regex = new Regex(pattern);
var sourceString = @"<p>Some Html... </p>\n<br />\n<p>The p section I want to remove</p>";
var matchCollection = regex.Matches(sourceString);
if(matchCollection.Count > 0)
{
sourceString.Replace(matchCollection[matchCollection.Count - 1].Value, string.Empty);
}