Question

我有一个控件，它返回一个数据表，该数据表由html代码组成，每行包含一个字符串。我试图使用正则表达式仅提取HTML标记中包含的单词

{[h]</span></p><p class="MsoNormal" style="text-align: left;"><span style="color: #ff6600; font-weight: bold;"><span style="font-family: arial, helvetica, sans-serif;">What do they mean today?</span></span></p><p style="text-align: left; margin: 0px;"><span style="font-family: arial, helvetica, sans-serif;">[/h]}

我想只提取句子今天他们的意思是什么？或任何包含超过1个单词的句子。

我尝试了（/ w * / s？）* ，但似乎只查看字符串的开头而不是整个字符串。我对正则表达式不是很好。任何帮助将不胜感激。

Answer 1

你可以使用下面的正则表达式来获取你想要的字符串。

@"(?<=>)[^<>]+(?=<)"

但正则表达式不是解析html文件的推荐方法。

DEMO

使用C＃中的正则表达式从html字符串中提取句子

1 个答案: