Question

我正在使用html敏捷包创建web scraper，我有一个关于分页的问题。我在网上搜索了一些东西来帮助我前进，但我不在附近。我需要抓取所有分页页面的内容。是否有任何机制可以使用htmlagility或任何帮助表示赞赏。我还发现了其他应用，如硒，并研究它。有没有办法可以利用硒和htmlagility来刮痧？任何形式的帮助将不胜感激。谢谢

Answer 1

当然，您可以将HAP与Selenium一起使用。基本上，您可以使用selenium驱动程序之一导航到URL，然后将HTML加载到HAP中，如下所示：

IWebDriver driver = new FirefoxDriver();
driver.Navigate().GoToUrl(url);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(driver.PageSource);

完成解析当前页面后，将驱动程序导航到下一页（找到下一页链接并执行单击操作）并再次将HTML传递给HAP。无论如何，我认为大多数HAP功能都可以被Selenium取代，所以你可能只想考虑使用Selenium。

Web抓取分页页面使用HtmlAgilityPack

1 个答案: