鉴于我有一个链接如何在层次结构下提取文件/页面名称
例如,在此stackoverflow交换中,
https://stackoverflow.com/questions/
在此之后有许多链接。
stackoverflow.com/questions/的 31236312
stackoverflow.com/questions/的 31235818
...
等
我知道“stackoverflow.com/questions/”,并希望找出这些数字,这些数字之后的名字。
有没有这样做?
我正在研究的网站使用CSS和
它不允许访问,例如,stackoverflow.com/questions/(我得到错误403 - 禁止)
但只允许在其下面的特定页面
这些文件名由数字和字母字符的混合组成。 72304,或A1103457等。
该层次结构下有超过100个文件,我希望找到它的所有名称/网址。
非常感谢提前。
答案 0 :(得分:0)
简而言之,你不能。没有办法只抓住给定网址/域路径下的每个页面。
更长......你可以像蜘蛛一样使用 https://github.com/mvdbos/php-spider
要关注链接并进行广度深度搜索,请查找在该给定网址下可以找到的所有链接。然而,它会加载它找到的每一页,搜索链接然后继续。因此,在大型网站上这将非常缓慢,并可能导致帐户锁定和违反服务条款。