我正在尝试使用<td>
类来获取每个myClass
元素的 myTEXT 。
示例:<td class="myClass" colspan="3">myTEXT</td>
我尝试使用类似Using regex to get text between multiple HTML tags的内容,但我必须按 myClass 进行过滤。
我是新手,我可以使用(?=(<td.*)class="myClass".*?>){1}(.*?)<\/td>
进行匹配,但它包含<td(...)>
和</td>
。
所以我的问题是,我怎样才能使用 myClass 类在每个<td>
之间只获得之间的文字?
答案 0 :(得分:1)
也许......你可以用它 http://html-agility-pack.net/
这个是支持xpath语法,所以你可以像这样使用:
HtmlAgilityPack.HtmlDocumnet doc = new HtmlAgilityPath.HtmlDocumnet();
doc.LoadHtml(your html string);
HtmlAgilityPack.HtmlNodeCollection col = doc.DocumentNode.SelectNodes("//img");
foreach(var node in col) {
Console.WriteLine(node.OuterHtml);
}
我希望这可以帮到你。