Question

我有点问一个奇怪的问题，但我正在制作一只蜘蛛，我想知道是否有任何方法可以获得某些网址的文件夹：

   mysite.com/drupal
   mysite.com/wordpress
   mysite.com/abc

有没有办法找到这种信息？

Answer 1

网站通常不会宣传他们的整套网址。你可以尝试一些事情：

阅读主页，然后按照页面上的链接进行操作。每个页面都指向另一个页面，其中包含链接，依此类推。
猜猜常见的文件夹名称。
如果网站上有robots.txt文件，请将其删除。你应该是一个好公民而不是检索它禁止你的网页。
尝试获取网站的站点地图，如下所示：http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156184

Answer 2

如果你实现了一个传统的蜘蛛，它只会遍历Urls在内容中的发现。您可以在每个目录级别尝试字典或每个字符串的宇宙检查，但这不会很好。

所以，简短的回答是“不”。