匹配Web源代码中的标记内容

时间:2010-06-08 11:58:39

标签: c# regex text match

我想知道什么是最快和最简单的方法来获取字符串中标签之间的文本 例如,我有这个字符串:Lorem ipsum <a>dolor sit amet</a>, <b>consectetur</b> adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
我需要查找标记<a> </a><b> </b>之间的文字。

谢谢。

3 个答案:

答案 0 :(得分:1)

解析HTML非常困难,因为网页很少是正确的,你会发现很多不匹配的标签和奇怪的东西。

如果这是真实世界的页面,请使用HTMLAgilityPack

答案 1 :(得分:1)

<a>(.*)</a>.*<b>(.*)</b>将在此特定情况下 ,但一般情况下,使用正则表达式解析html并不是一个好主意。改为使用HTML / XML解析器。

尝试HTMLAgilityPack:此SO post解释了如何使用它。

答案 2 :(得分:0)

.+<a>(.+)</a>.+<b>(.+)</b>.+

第一个匹配组将包含A标签和第二组之间的文本 - 在B标签之间。