使用C#中的正则表达式从html字符串中提取句子

时间:2015-02-10 07:21:00

标签: c# html regex

我有一个控件,它返回一个数据表,该数据表由html代码组成,每行包含一个字符串。我试图使用正则表达式仅提取HTML标记中包含的单词

{[h]</span></p><p class="MsoNormal" style="text-align: left;"><span style="color: #ff6600; font-weight: bold;"><span style="font-family: arial, helvetica, sans-serif;">What do they mean today?</span></span></p><p style="text-align: left; margin: 0px;"><span style="font-family: arial, helvetica, sans-serif;">[/h]}

我想只提取句子今天他们的意思是什么?或任何包含超过1个单词的句子。

我尝试了(/ w * / s?)* ,但似乎只查看字符串的开头而不是整个字符串。我对正则表达式不是很好。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

你可以使用下面的正则表达式来获取你想要的字符串。

@"(?<=>)[^<>]+(?=<)"

但正则表达式不是解析html文件的推荐方法。

DEMO