减少无限循环中的phantomjs / casperjs / spooky js内存使用

时间:2014-09-07 15:06:06

标签: node.js web-scraping phantomjs casperjs spookyjs

我试图使用phantomjs casperjs和spooky来抓取使用无限滚动的页面。它应该继续单击更多按钮并从结果中获取新链接,直到手动停止。然而,该脚本开始使用越来越多的内存,直到它崩溃。我写了下面的脚本,有没有办法优化它,所以它不会使用尽可能多的内存:

function pressMore(previousLinksLength) {
    this.click('#projects > div.container-flex.px2 > div > a');
    this.wait(1000, function() {
      links = this.evaluate(function() {
        var projectPreview = document.querySelectorAll('.project-thumbnail a');
        return Array.prototype.map.call(projectPreview, function(e) {
          return e.getAttribute('href');
        });
    });
      this.emit('sendScrapedLinks', links.slice(previousLinksLength));
    // repeat scrape function
      pressMore.call(this, links.length);
  });
}
// spookyjs starts here
spooky.start(scrapingUrl);

//press the more button
spooky.then(pressMore);

spooky.run();

1 个答案:

答案 0 :(得分:1)

我也在无限滚动网站上遇到这个问题。我永远无法找到内存泄漏。

简而言之,我最终做的是使用滚动来。基本上我会运行应用程序一段时间记录最后滚动到位置,然后使用记录的值重新启动应用程序,以防止内存变高。这是一个痛苦,因为许多网站必须按顺序滚动到某个位置才能加载越来越多。找到那些将你最后一次滚动到位置的位置可能具有挑战性。