如何从网站表中查找和提取信息?

时间:2013-03-23 02:46:22

标签: c# web-scraping nodes html-agility-pack

我对C#和特定的HtmlAgilityPack非常陌生,而且我无法从网站获取信息。例如,我想从网站的表格中获取图片网址: Serebii

从我试图找到的网站中提取以下内容:

Link to picture

 string s = "http://www.serebii.net/pokedex-rs/005.shtml";

        HtmlWeb hw = new HtmlWeb();
        HtmlAgilityPack.HtmlDocument doc = hw.Load(s);

        //HtmlNodeCollection items = doc.DocumentNode.SelectNodes("//a[@class='question-hyperlink']");
        HtmlNodeCollection items = doc.DocumentNode.SelectNodes("//table//tr//td//div//table//tbody//tr//td//img");
        foreach (HtmlNode item in items)
        {
            Console.WriteLine(item.OuterHtml);
            MessageBox.Show(item.OuterHtml);
        }

        Console.ReadLine();

我相当肯定我会离开球,任何帮助都会受到赞赏。

1 个答案:

答案 0 :(得分:1)

您只能希望开发人员不喜欢经常更新源代码。

var item = doc.DocumentNode.SelectSingleNode("//table//tr//tr//td//div//tr//img");
string imageSrc = item.GetAttributeValue("src", "");
Console.WriteLine(imageSrc);