从html页面中为c#提取多个值

时间:2012-12-02 06:56:48

标签: c# html html-parsing

我从html页面源代码

<h5 class="icn-venue"><a href="/venues/mmxchi-tavernita-venue" class="pin-red place" data-lat="41.8938" data-lon="-87.633" rel="map">Tavernita</a></h5>

页面源上的这些标记之间有10个这样的值。 我想在“h5”标签之间提取值。对于所有值,Class =“icn-venue”保持相同。 我尝试拆分标签,然后存储,但代码似乎没有用。

2 个答案:

答案 0 :(得分:2)

你可以使用htmlAgilityPack

这样做
HtmlDocument doc = new HtmlDocument();
doc.Load(yourStream);

List<string> lst=doc.DocumentNode.SelectNodes("//h5[class='icn-venue']")
                    .Select(x=>x.InnerHtml)
                    .ToList();

答案 1 :(得分:1)

HTML Agility Pack是操作和使用HTML的绝佳工具:http://htmlagilitypack.codeplex.com/

它至少可以抓住你需要的值,并且更容易替换。

包含使用HTML Agility Pack的链接:如何使用HTML Agility pack