标签: html c++ qt qtwebkit
我在爬虫中使用C ++,过时的Qt Web工具包5.5.1(为了支持Windows XP)。我使用HTML渲染来获取HTML /文本内容。但我希望尽量减少渲染频率并跳过下载不相关的内容以加快抓取速度。
首先,我使用QNetworkAccessManager获取网页,然后通过setContent()方法将其传递给QWebFrame实例(我考虑手动重定向)。我还有QNetworkAccessManager后代,可用于跳过某些GET请求。
QNetworkAccessManager
setContent()
QWebFrame