我是Javascript编程的新手,正在使用CasperJS构建的网页抓取脚本。
问题在于它相当慢,但它确实有效。我正在尝试一种方法来制作一个重叠的脚本/程序来启动我创建的这个脚本,但我不确定这样做的最佳方法。我已经尝试过使用GNU Parallel命令,但我更喜欢使用JS,PHP或Python,因为我对这些语言比较熟悉。
我也知道CasperJS实例将共享cookie和本地存储,但这不是我的用例的问题。 如果对这种架构和框架更有经验的人可以帮助我,我会很感激。
谢谢!
答案 0 :(得分:0)
我最终使用了NodeJS' child_process:https://nodejs.org/api/child_process.html 这几乎是我想要的,并使用了我在CasperJS脚本中使用的相同语言。
我使用的教程和示例:https://era86.github.io/2012/10/11/quick-and-dirty-nodejs-exec-limit-queue.html