我正在开发一个网页抓取工具,可以从网页(http://www.espn.com/college-football/)中提取文章标题并且效果很好,但它只会提取部分文章,而不是所有文章。
文章在<section data-everscroll="true">
内,所以我知道它停在那里。
我的问题是,如何从页面收集所有文章,一直到最底层。共有119篇文章。
免责声明:我已联系过ESPN并获得了他们的许可,可以在这个项目中使用他们的文章。
static void Main(string[] args)
{
var getHtmlWeb = new HtmlWeb();
var doc = getHtmlWeb.Load("http://www.espn.com/college-football");
var titles = doc.DocumentNode.SelectNodes("//*[@id=\"news-feed\"]/article//section//h1");
foreach (var title in titles)
{
string t = title.InnerText;
Console.WriteLine($"Title: {t}");
}
Console.ReadLine();
}