以最有效的方式呈现已爬网的HTML

时间:2019-03-22 20:19:26

标签: web-crawler

我们正在开发一个应用程序,该应用程序可以对10个站点的所有网页进行屏幕抓取(抓取)。

我们使用C#+ Selenium + ChromeDriver开发了一个工具,它正在发挥作用。问题是它的运行速度很慢,因此我们正在寻找一种使其更快的方法。

理想情况下,我们想停止使用Selenium和ChromeDriver。

我们使用它们的唯一原因是实际呈现提取的HTML(有时,我们收到的纯HTML的问题是它具有在页面加载时会重建HTML的JavaScript)。

所以问题是我们如何以最有效的方式呈现提取的HTML?

0 个答案:

没有答案