使用xpath-syntax使用Html-agility-pack加载网站

时间:2014-05-23 11:08:36

标签: c# xpath html-agility-pack

我正在使用此方法选择特定的html并将其放入列表中。 当我使用保存在计算机上的html文件时,效果很好。但如何从网站加载内容

这是我加载.html文件的方法,巫婆工作:

public void TestGetHtml()
    {
        var doc = new HtmlDocument();
        doc.Load("C:/Users/Jonathan/Desktop/laggen.html");
        var xpath = "//table[@id='tableSearchArticle']/tbody/tr/td[4]";
        var listOfGtins = doc.DocumentNode.SelectNodes(xpath)
                       .Select(td => td.InnerText.Replace("GTIN:", ""));  
    }

但我想加载一个网站而不是一个文件,如下所示:

public void TestGetHtml()
    {
        var doc = new HtmlDocument();
        doc.Load("http://www.dabas.com/mypages/search.aspx?typ=FP&sosokord=laggen"); <--- this is the site I want to load
        var xpath = "//table[@id='tableSearchArticle']/tbody/tr/td[4]";
        var listOfGtins = doc.DocumentNode.SelectNodes(xpath)
                       .Select(td => td.InnerText.Replace("GTIN:", ""));  
    }

1 个答案:

答案 0 :(得分:1)

使用

    HtmlWeb web = new HtmlWeb();
    HtmlDocument doc = web.Load("http://www.dabas.com/mypages/search.aspx?typ=FP&sosokord=laggen"); 
var xpath = "//table[@id='tableSearchArticle']/tbody/tr/td[4]";
var listOfGtins = doc.DocumentNode.SelectNodes(xpath)
               .Select(td => td.InnerText.Replace("GTIN:", ""));
foreach (string gtin in listOfGtins)
{
    Console.WriteLine(gtin);
}

如果您想通过HTTP从HTTP加载HTML。