Question

我正在开发一个网页抓取工具，可以从网页（http://www.espn.com/college-football/）中提取文章标题并且效果很好，但它只会提取部分文章，而不是所有文章。

文章在<section data-everscroll="true">内，所以我知道它停在那里。

我的问题是，如何从页面收集所有文章，一直到最底层。共有119篇文章。

免责声明：我已联系过ESPN并获得了他们的许可，可以在这个项目中使用他们的文章。

static void Main(string[] args)
{
    var getHtmlWeb = new HtmlWeb();
    var doc = getHtmlWeb.Load("http://www.espn.com/college-football");
    var titles = doc.DocumentNode.SelectNodes("//*[@id=\"news-feed\"]/article//section//h1");

    foreach (var title in titles)
    {
        string t = title.InnerText;
        Console.WriteLine($"Title: {t}");
    }

    Console.ReadLine();
}

使用C＃和HTML Agility Pack进行Web Scraping

0 个答案: