从网站复制多个链接

时间:2017-02-11 04:27:24

标签: javascript url web

我想创建一个随机访问其他网站页面的应用。 这个网站有超过40,000页,没有api。

如何收集所有这40,000页的网址?复制和粘贴将是永恒的。

所有这些页面都遵循相同的结构,类似于site.com/directory/1.html,site.com/directory/2.html等

2 个答案:

答案 0 :(得分:0)

PhantomJS非常适合这一点。 或者你可以学习NodeJS并设置一个'刮刀',它将基本上通过GET请求获取每个页面的html,并使用cheerio(jquery for serverside)等解析它。

你的问题非常广泛,因为有很多方法可以沉没一艘船。你只需要选择一个工具并继续它。古德勒克!

答案 1 :(得分:0)

在不同的环境中可以使用多种工具。你可以通过以下方式实现这一目标:

  • Node.js - 环境
  • request - http请求工具
  • cheerio - html解析工具,支持类似jQuery的选择器,如$("a.somelink-selector")
  • 或许async library可以更轻松地控制您一次要执行的请求数