抓取需要触发javascript的外部网站

时间:2018-08-17 21:59:49

标签: javascript node.js selenium-webdriver heroku web-scraping

由于phantomjs被遗弃,我想知道是否还有其他方法。例如chrome-webdriver并不是一个好的解决方案,因为它无法在heroku等远程主机上运行。

那么,是否有可能刮取需要首先触发javascript的外部网站?请注意,应该可以从nodejs应用程序运行它。

1 个答案:

答案 0 :(得分:0)

我正准备为您准备一些东西,然后我想了一下,用谷歌搜索了它。查看此构建脚本;它似乎完全可以回答您的问题。

https://github.com/stomita/heroku-buildpack-phantomjs

设置一个git分支,如果需要的话,将其拉到本地,但这应该可行。基本上,您需要下载二进制文件,然后远程下载并运行“ heroku run'phantomjs'”或“ heroku run'bin / phantomjs'”