我有一个网页,我需要抓取。它看起来像这样:
www.abc.com/a/b/
,
我知道在/b
目录下,我需要一些带有.html
扩展名的文件。我知道我可以访问这些.html
个文件,但我无法访问www.abc.com/a/b/
。因此,在不知道.html
文件名的情况下,如何抓取这些.html
页?
答案 0 :(得分:0)
如果您不知道如何访问网页,则无法抓取网页。
如果我明白你的意思,你想要访问在索引页面没有的目录中可访问的页面(因为你得到403)。
在放弃之前,您可以尝试以下方法:
link:
运算符: link:www.abc.com/a/b/the_file_you_know_exists
site:
运算符: site:www.abc.com/a/b/
http://web.archive.org/web/*/www.abc.com/a/b/
http://timetravel.mementoweb.org/reconstruct/*/www.abc.com/a/b/
这可能会为您提供该网站可能存在或过去存在的网页。