在url层次结构下提取文件/页面名称

时间:2015-07-06 00:30:34

标签: html css url extract

鉴于我有一个链接如何在层次结构下提取文件/页面名称

例如,在此stackoverflow交换中, https://stackoverflow.com/questions/
在此之后有许多链接。

stackoverflow.com/questions/的 31236312
stackoverflow.com/questions/的 31235818
... 等

我知道“stackoverflow.com/questions/”,并希望找出这些数字,这些数字之后的名字。

有没有这样做?

我正在研究的网站使用CSS和 它不允许访问,例如,stackoverflow.com/questions/(我得到错误403 - 禁止)
但只允许在其下面的特定页面 这些文件名由数字和字母字符的混合组成。 72304,或A1103457等。

该层次结构下有超过100个文件,我希望找到它的所有名称/网址。

非常感谢提前。

1 个答案:

答案 0 :(得分:0)

简而言之,你不能。没有办法只抓住给定网址/域路径下的每个页面。

更长......你可以像蜘蛛一样使用 https://github.com/mvdbos/php-spider

要关注链接并进行广度深度搜索,请查找在该给定网址下可以找到的所有链接。然而,它会加载它找到的每一页,搜索链接然后继续。因此,在大型网站上这将非常缓慢,并可能导致帐户锁定和违反服务条款。