Question

我正在尝试使用<td>类来获取每个myClass元素的 myTEXT 。

示例：<td class="myClass" colspan="3">myTEXT</td>

我尝试使用类似Using regex to get text between multiple HTML tags的内容，但我必须按 myClass 进行过滤。

我是新手，我可以使用(?=(<td.*)class="myClass".*?>){1}(.*?)<\/td>进行匹配，但它包含<td(...)>和</td>。

所以我的问题是，我怎样才能使用 myClass 类在每个<td>之间只获得之间的文字？

Answer 1

也许......你可以用它 http://html-agility-pack.net/

这个是支持xpath语法，所以你可以像这样使用：

HtmlAgilityPack.HtmlDocumnet doc = new HtmlAgilityPath.HtmlDocumnet();
doc.LoadHtml(your html string);

HtmlAgilityPack.HtmlNodeCollection col = doc.DocumentNode.SelectNodes("//img");
foreach(var node in col) {
    Console.WriteLine(node.OuterHtml);
}

我希望这可以帮到你。

使用Regex按类获取<element>内部内容

1 个答案: