我不确定如何正确地说出这个问题,所以请善待并让我知道如何正确地问这个:)
说我有一个网址:www.potato.com
如何找到此域中的所有工作子网址?例如,粗体:
www.potato.com/hidden_pages/的 you_cannot_guess_this_page
www.potato.com/hidden_pages/的 cant_guess_this_either
有没有办法可以查询www.potato.com/hidden_pages/获取所有子网址?
谢谢! :)
答案 0 :(得分:0)
如果websever启用了目录列表(例如,查看如何在nginx或apache中执行此操作),那么您可以查询目录www.potato.com/hidden_pages
,然后您将返回一个列表它下面的文件/目录,可以用beautifulsoup之类的东西解析。
或者,如果网站有站点地图(例如www.potato.com/sitemap.xml),您可以解析它以找出'hidden_pages'下的页面,前提是它已在站点地图中列出。
TL:DR:如果网站管理员希望您能够访问这些网页,那么您可以使用上述方法进行操作,否则您必须强行/猜测链接。