Question

我正在使用正则表达式来检索html页面的文本。我使用这个正则表达式消除了html标签：

<[^>]+>

问题是这个正则表达式在这样的html标签上无法正常工作：

<input type="button" onclick="if (a > b) do_somthing();">

此正则表达式将与<input type="button" onclick="if (a >匹配，b) do_somthing();">将保留。

我应该使用哪个正则表达式来匹配此标记？

Answer 1

更好和正确的方法是使用HTML Parser（如敏捷HTML包）来解析HTML并根据您的要求使用。使用REGEX解析HTML很难，容易出错。

Answer 2

如上所述阅读以下链接，为什么正则表达式不适用于HTML - ＆gt; Don't use regex for HTML

正如评论中所建议的，使用C＃HTML解析器，例如CsQuery