VB.Net或C#去除html但留下小于或大于

时间:2011-01-12 02:09:44

标签: html regex vb.net

我有一个包含以下html数据的字符串变量:

<p> <em><strong>This is some <span style="background-color: rgb(255, 255, 0);">rich </span>text. 3 < 5 is a valid statement. <br /> </strong></em></p>

我需要能够去掉html,但是如果数据包含数学方程式(例如字符串的“3&lt; 5”部分),则留下任何小于或大于符号的符号。由于我们网站的某些限制,我无法使用第三方应用程序/工具,并且更愿意使用.net框架版本3.5中的任何内容。我已经尝试了后面的正则表达式,但它们不处理小于/大于符号。

<[^>]*>
<[^>]+>
<(.|\n)*?>
\<[^\>]*\>

我也尝试了this link上的代码,但它也没有处理小于/大于符号。

非常感谢任何建议。

1 个答案:

答案 0 :(得分:3)

将与此匹配的所有文字替换为''

(<[^<>]*>)+

(我在Rubular.com上测试过它,但它也适用于C#。)

显然代码应该是

RegexObj.Replace('<p> <em><strong>This is some <span style="background-color: rgb(255, 255, 0);">rich </span>text. 3 < 5 is a valid statement. <br /> </strong></em></p>', "")