从主URL获取子URL

时间:2017-05-07 14:56:44

标签: python url web

我不确定如何正确地说出这个问题,所以请善待并让我知道如何正确地问这个:)

说我有一个网址:www.potato.com

如何找到此域中的所有工作子网址?例如,粗体:

www.potato.com/hidden_​​pages/的 you_cannot_guess_this_page

www.potato.com/hidden_​​pages/的 cant_guess_this_either

有没有办法可以查询www.potato.com/hidden_​​pages/获取所有子网址?

谢谢! :)

1 个答案:

答案 0 :(得分:0)

如果websever启用了目录列表(例如,查看如何在nginxapache中执行此操作),那么您可以查询目录www.potato.com/hidden_pages,然后您将返回一个列表它下面的文件/目录,可以用beautifulsoup之类的东西解析。

或者,如果网站有站点地图(例如www.potato.com/sitemap.xml),您可以解析它以找出'hidden_​​pages'下的页面,前提是它已在站点地图中列出。

TL:DR:如果网站管理员希望您能够访问这些网页,那么您可以使用上述方法进行操作,否则您必须强行/猜测链接。