爬虫的选择性HTML渲染启发式算法

时间:2016-12-02 11:07:39

标签: html c++ qt qtwebkit

我在爬虫中使用C ++,过时的Qt Web工具包5.5.1(为了支持Windows XP)。我使用HTML渲染来获取HTML /文本内容。但我希望尽量减少渲染频率并跳过下载不相关的内容以加快抓取速度。

首先,我使用QNetworkAccessManager获取网页,然后通过setContent()方法将其传递给QWebFrame实例(我考虑手动重定向)。我还有QNetworkAccessManager后代,可用于跳过某些GET请求。

  1. 哪些网页属性肯定会说简单文本提取不需要渲染?
  2. 如果我们只想抓取渲染的html中的文本/链接,可以安全地省略webkit在渲染过程中生成的GET请求?例如,* .css?

0 个答案:

没有答案