如果我知道目标网页和文件扩展名但不知道文件名,我该如何使用爬虫?

时间:2017-01-04 14:54:10

标签: python html nginx web-crawler

我有一个网页,我需要抓取。它看起来像这样:

www.abc.com/a/b/

我知道在/b目录下,我需要一些带有.html扩展名的文件。我知道我可以访问这些.html个文件,但我无法访问www.abc.com/a/b/。因此,在不知道.html文件名的情况下,如何抓取这些.html页?

1 个答案:

答案 0 :(得分:0)

如果您不知道如何访问网页,则无法抓取网页。

如果我明白你的意思,你想要访问在索引页面没有的目录中可访问的页面(因为你得到403)。

在放弃之前,您可以尝试以下方法:

  • 检查主搜索引擎是否链接到您似乎知道的目录内的页面(因为如果您知道您可以访问这些.html,您可能至少知道其中一个)。包含该链接的页面也可能包含指向该目录中文件的其他链接。例如,在Google中,请使用link:运算符:

link:www.abc.com/a/b/the_file_you_know_exists

  • 检查网站是否在主搜索引擎中编入索引。例如,在Google中,请使用site:运算符:

site:www.abc.com/a/b/

  • 检查网站是否存档在archive.org中:

http://web.archive.org/web/*/www.abc.com/a/b/

  • 检查您是否可以使用memento在其他网络档案中找到它:

http://timetravel.mementoweb.org/reconstruct/*/www.abc.com/a/b/

  • 尝试查找其他可能的文件名,例如index1.html,index_old.html,index.html_old,contact.html等。您可以创建一个可供尝试的文件名的长列表,但这也取决于您对该网站的了解。

这可能会为您提供该网站可能存在或过去存在的网页。