使用Regex按类获取<element>内部内容

时间:2017-01-09 02:38:48

标签: c# regex

我正在尝试使用<td>类来获取每个myClass元素的 myTEXT

示例:<td class="myClass" colspan="3">myTEXT</td>

我尝试使用类似Using regex to get text between multiple HTML tags的内容,但我必须按 myClass 进行过滤。

我是新手,我可以使用(?=(<td.*)class="myClass".*?>){1}(.*?)<\/td>进行匹配,但它包含<td(...)></td>

所以我的问题是,我怎样才能使用 myClass 类在每个<td>之间只获得之间的文字

1 个答案:

答案 0 :(得分:1)

也许......你可以用它 http://html-agility-pack.net/

这个是支持xpath语法,所以你可以像这样使用:

HtmlAgilityPack.HtmlDocumnet doc = new HtmlAgilityPath.HtmlDocumnet();
doc.LoadHtml(your html string);

HtmlAgilityPack.HtmlNodeCollection col = doc.DocumentNode.SelectNodes("//img");
foreach(var node in col) {
    Console.WriteLine(node.OuterHtml);
}

我希望这可以帮到你。