我真的很想知道如何找到特定URL下的所有网站。 例如,我有一个https://a.b/c的URL,并且我想查找其下的所有网站,例如https://a.b/c/d和https://a.b/c/d/e。 有一些方法可以做到这一点吗? 非常感谢!
答案 0 :(得分:1)
如果页面与根目录中的页面的超链接互连,则可以通过跟踪内部链接轻松spider网站。这将要求您加载根页面,解析其超链接,加载这些页面并重复进行,直到未检测到新链接。您将需要实施循环检测,以避免对已经爬网的页面进行爬网。蜘蛛礼貌地行动并不容易。许多网站通过robots.txt文件或其他方式公开元数据,以指示不希望对其网站的哪些部分建立索引,并且它们可能会运行缓慢,以避免消耗过多的服务器资源。您应该尊重这些规范。
但是,请注意,如果没有从站点显式链接所有页面,则没有通用的方法枚举所有页面。为此,需要:
答案 1 :(得分:0)
根据@Cosmic Ossifrage的建议,您可以查找站点地图。通常是根目录(https://www.example.com/robots.txt)上robots.txt中的引用。可能会有一个指向站点地图xml的链接,其中包含站点上的链接列表,这些链接可能会也可能并不详尽。
答案 2 :(得分:0)
使用Xenus Link Sleuth,WebCheck和DRKSpider。
这是下面的链接