应用错误收集

时间：2015-07-06 00:30:34

标签： html css url extract

鉴于我有一个链接如何在层次结构下提取文件/页面名称

例如，在此stackoverflow交换中， https://stackoverflow.com/questions/
在此之后有许多链接。

stackoverflow.com/questions/的 31236312
stackoverflow.com/questions/的 31235818
... 等

我知道“stackoverflow.com/questions/”，并希望找出这些数字，这些数字之后的名字。

有没有这样做？

我正在研究的网站使用CSS和它不允许访问，例如，stackoverflow.com/questions/（我得到错误403 - 禁止）
但只允许在其下面的特定页面这些文件名由数字和字母字符的混合组成。 72304，或A1103457等。

该层次结构下有超过100个文件，我希望找到它的所有名称/网址。

非常感谢提前。

答案 0 :(得分：0)

简而言之，你不能。没有办法只抓住给定网址/域路径下的每个页面。

更长......你可以像蜘蛛一样使用 https://github.com/mvdbos/php-spider

要关注链接并进行广度深度搜索，请查找在该给定网址下可以找到的所有链接。然而，它会加载它找到的每一页，搜索链接然后继续。因此，在大型网站上这将非常缓慢，并可能导致帐户锁定和违反服务条款。