我有点问一个奇怪的问题,但我正在制作一只蜘蛛,我想知道是否有任何方法可以获得某些网址的文件夹:
mysite.com/drupal
mysite.com/wordpress
mysite.com/abc
有没有办法找到这种信息?
答案 0 :(得分:1)
网站通常不会宣传他们的整套网址。你可以尝试一些事情:
阅读主页,然后按照页面上的链接进行操作。每个页面都指向另一个页面,其中包含链接,依此类推。
猜猜常见的文件夹名称。
如果网站上有robots.txt文件,请将其删除。你应该是一个好公民而不是检索它禁止你的网页。
尝试获取网站的站点地图,如下所示:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156184
答案 1 :(得分:0)
如果你实现了一个传统的蜘蛛,它只会遍历Urls在内容中的发现。您可以在每个目录级别尝试字典或每个字符串的宇宙检查,但这不会很好。
所以,简短的回答是“不”。