应用错误收集

如果您不知道如何访问网页，则无法抓取网页。

如果我明白你的意思，你想要访问在索引页面没有的目录中可访问的页面（因为你得到403）。

在放弃之前，您可以尝试以下方法：

检查主搜索引擎是否链接到您似乎知道的目录内的页面（因为如果您知道您可以访问这些.html，您可能至少知道其中一个）。包含该链接的页面也可能包含指向该目录中文件的其他链接。例如，在Google中，请使用link:运算符：

link:www.abc.com/a/b/the_file_you_know_exists

site:www.abc.com/a/b/

http://web.archive.org/web/*/www.abc.com/a/b/

http://timetravel.mementoweb.org/reconstruct/*/www.abc.com/a/b/

尝试查找其他可能的文件名，例如index1.html，index_old.html，index.html_old，contact.html等。您可以创建一个可供尝试的文件名的长列表，但这也取决于您对该网站的了解。

这可能会为您提供该网站可能存在或过去存在的网页。