我想创建一个随机访问其他网站页面的应用。 这个网站有超过40,000页,没有api。
如何收集所有这40,000页的网址?复制和粘贴将是永恒的。
所有这些页面都遵循相同的结构,类似于site.com/directory/1.html,site.com/directory/2.html等
答案 0 :(得分:0)
PhantomJS非常适合这一点。 或者你可以学习NodeJS并设置一个'刮刀',它将基本上通过GET请求获取每个页面的html,并使用cheerio(jquery for serverside)等解析它。
你的问题非常广泛,因为有很多方法可以沉没一艘船。你只需要选择一个工具并继续它。古德勒克!
答案 1 :(得分:0)
在不同的环境中可以使用多种工具。你可以通过以下方式实现这一目标:
$("a.somelink-selector")