Web抓取分页页面使用HtmlAgilityPack

时间:2016-04-29 02:53:23

标签: c# selenium-webdriver web-scraping html-agility-pack

我正在使用html敏捷包创建web scraper,我有一个关于分页的问题。 我在网上搜索了一些东西来帮助我前进,但我不在附近。我需要抓取所有分页页面的内容。是否有任何机制可以使用htmlagility或任何帮助表示赞赏。 我还发现了其他应用,如硒,并研究它。有没有办法可以利用硒和htmlagility来刮痧? 任何形式的帮助将不胜感激。 谢谢

1 个答案:

答案 0 :(得分:1)

当然,您可以将HAP与Selenium一起使用。基本上,您可以使用selenium驱动程序之一导航到URL,然后将HTML加载到HAP中,如下所示:

IWebDriver driver = new FirefoxDriver();
driver.Navigate().GoToUrl(url);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(driver.PageSource);

完成解析当前页面后,将驱动程序导航到下一页(找到下一页链接并执行单击操作)并再次将HTML传递给HAP。无论如何,我认为大多数HAP功能都可以被Selenium取代,所以你可能只想考虑使用Selenium。