有没有办法找到网址文件夹?

时间:2012-06-28 15:29:21

标签: python search web-crawler

我有点问一个奇怪的问题,但我正在制作一只蜘蛛,我想知道是否有任何方法可以获得某些网址的文件夹:

   mysite.com/drupal
   mysite.com/wordpress
   mysite.com/abc

有没有办法找到这种信息?

2 个答案:

答案 0 :(得分:1)

网站通常不会宣传他们的整套网址。你可以尝试一些事情:

  1. 阅读主页,然后按照页面上的链接进行操作。每个页面都指向另一个页面,其中包含链接,依此类推。

  2. 猜猜常见的文件夹名称。

  3. 如果网站上有robots.txt文件,请将其删除。你应该是一个好公民而不是检索它禁止你的网页。

  4. 尝试获取网站的站点地图,如下所示:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156184

答案 1 :(得分:0)

如果你实现了一个传统的蜘蛛,它只会遍历Urls在内容中的发现。您可以在每个目录级别尝试字典或每个字符串的宇宙检查,但这不会很好。

所以,简短的回答是“不”。