需要RegEx来消除<和>

时间:2012-01-05 08:59:19

标签: c# .net regex

我需要一个C#RegEx模式,它可以删除<>

之间的任何内容

例如,如果我的字符串是

<Html> some stuff here 123445!@#$% </HTML>

那么RegEx应该只返回我

  

这里的一些东西123445!@#$%

它应删除<>之间的任何内容,然后删除“&lt;” &安培; “&gt;” 中

3 个答案:

答案 0 :(得分:4)

here is a working example : 

string plainText = Regex.Replace(htmlText, "<[^>]+?>", "");

http://regexr.com?2vl05

修改

我在说翻译:

&lt; =搜索'&lt;'炭

[^&gt;] =现在继续搜索'&gt;'

的字符

+ 继续搜索更多的实例

但不要贪心

&gt; 当我说不要贪婪时 - 我的意思是 - 直到我会遇到'&gt;'

并用“”

替换它

答案 1 :(得分:1)

类似于:\<.+\>?(.*)\<\/.+\>? 第一组将是两个标签之间的字符串

你也可以在\<\/?.+\>上进行正则表达式替换,你应该用什么都不替换这个模式

答案 2 :(得分:0)

使用带有HTML的Regex可能有点危险,HTML不是常规语法,并且正则表达式可能会因某些不太容易实现的情况而失败。如果你正在使用HTML和.NET,也许你想看看HTML Agility Pack