如何使用正则表达式获取div标签内容

时间:2012-12-14 20:41:05

标签: c# regex html-parsing

我想获得div标签的内容。 例如:

<div id="gameDetailsInner">
<div id="headerText" style="padding-left: 0px !important;padding-top: 0px !important;">
<h1><a href="http://www.abc.com/games.php?flash=7264">abc text</a></h1>
</div>
<div style="min-height: 90px;">
<a href="http://www.abc.com/games.php?param=12345"><img src="http://abc.abc.com/images/7264.jpg" alt="abc" width="120" height="78" id="gameDetailsInnerImg"/>
</a>
How can i get this text with regex?
</div>

...谢谢

3 个答案:

答案 0 :(得分:1)

如果您使用的是PHP,则可以使用strip_tags()函数从字符串中删除所有HTML标记。

除此之外,您还需要使用正确的HTML解析器。您无法使用正则表达式解析HTML。您需要使用正确的HTML解析器。 http://htmlparsing.com列出了许多针对不同语言的解决方案。

答案 1 :(得分:1)

不幸的是,您无法使用正则表达式可靠地解析HTML。有关详细信息,请参阅此着名问题:RegEx match open tags except XHTML self-contained tags

答案 2 :(得分:0)

<div.*>([^>]+)</div>

Group1 如果内容刚好在结尾div之前提供</div>的内容