应用错误收集

时间：2017-02-11 04:27:24

标签： javascript url web

我想创建一个随机访问其他网站页面的应用。这个网站有超过40,000页，没有api。

如何收集所有这40,000页的网址？复制和粘贴将是永恒的。

所有这些页面都遵循相同的结构，类似于site.com/directory/1.html,site.com/directory/2.html等

答案 0 :(得分：0)

PhantomJS非常适合这一点。或者你可以学习NodeJS并设置一个'刮刀'，它将基本上通过GET请求获取每个页面的html，并使用cheerio（jquery for serverside）等解析它。

你的问题非常广泛，因为有很多方法可以沉没一艘船。你只需要选择一个工具并继续它。古德勒克！

答案 1 :(得分：0)

在不同的环境中可以使用多种工具。你可以通过以下方式实现这一目标：