我从这个来源网上找到了一些很棒的代码:
https://webscraping.com/blog/Scraping-multiple-JavaScript-webpages-with-webkit/
这使我能够轻松地抓取重量级的网站。但是,某些站点仅在涉及鼠标滚动时才完全加载。如何将鼠标滚动集成到这组特定代码中?我已经google了超级很多,我发现了读取AJAX调用和东西的方法,但我仍然想使用这组代码,因为有些网站有大量无法跟踪的调用。因此,我宁愿使用这组代码来抓取HTML。
部分代码在这里,其余部分在上面的链接中。
class Render(QWebPage):
def __init__(self, urls, cb):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.urls = urls
self.cb = cb
self.crawl()
self.app.exec_()