使用C#和HTML Agility Pack进行Web Scraping

时间:2017-07-20 21:34:19

标签: c# web-scraping html-agility-pack

我正在开发一个网页抓取工具,可以从网页(http://www.espn.com/college-football/)中提取文章标题并且效果很好,但它只会提取部分文章,而不是所有文章。

文章在<section data-everscroll="true">内,所以我知道它停在那里。

我的问题是,如何从页面收集所有文章,一直到最底层。共有119篇文章。

免责声明:我已联系过ESPN并获得了他们的许可,可以在这个项目中使用他们的文章。

static void Main(string[] args)
{
    var getHtmlWeb = new HtmlWeb();
    var doc = getHtmlWeb.Load("http://www.espn.com/college-football");
    var titles = doc.DocumentNode.SelectNodes("//*[@id=\"news-feed\"]/article//section//h1");

    foreach (var title in titles)
    {
        string t = title.InnerText;
        Console.WriteLine($"Title: {t}");
    }

    Console.ReadLine();
}

0 个答案:

没有答案