谷歌的蜘蛛如何找到隐藏在登录墙后面的文件?

时间:2017-09-04 08:45:13

标签: security login web-crawler

此页:

http://netfs.dev.itcs.co.uk/downloads

隐藏在登录墙后面。

当我使用时:

site:http://netfs.dev.itcs.co.uk/downloads *.pdf

作为我的谷歌搜索字符串,谷歌似乎能够返回该URL目录中的广泛的pdf文件列表。

我的第一个想法是,这些文件是从另一个网站链接到的,但是正在搜索特定的pdf:

netfs.dev.itcs.co.uk/downloads/BTFP%20FAQs.pdf

仅返回1个结果(来自netfs.dev.itcs.co.uk)。我完全感到困惑 - 谷歌似乎能够绕过登录墙吗?

我尝试将我的用户代理欺骗到google-bot的代理,但也没有用。显然他们可以找出它的恶搞,但鉴于他们甚至在登录页面上都没有HTTPS,我发现很难相信他们正在做任何复杂的事情......

提前致谢...

0 个答案:

没有答案