应用错误收集

如果文件中存在至少一个链接（在抓取工具之前访问过的网页上），没有暴力破解或字典试用（稍后解释）的网络抓取工具就能找到一个文件

从路径/www/myfolder/myfile.xls我假设可能还有另一个问题。 webcrawler只能查找公开可用的文件。有时，/www，/var/www，/htdocs或其他正在使用的所有文件都是公开的。可能存在/www/mysite/public之类的结构，其中只有public可从网络获得。有了这样的结构，可以确保在下载之前没有PHP的权限检查就无法访问/www/mysite中的文件。

所以你必须检查是否

您的目录可以通过HTTP / FTP或其他任何方式访问
在抓取工具可以找到的其他网页上存在指向您文件的链接（技术上当然，抓取工具必须有一个起始页）

例外：暴力试验

还可以找到没有链接的文件的例外情况：搜索引擎可以尝试通过已知单词或随机单词扩展域的已知URL空间来查找文件。这当然只能偶尔进行。考虑一个TinyURL生成器。通常这些由一个简短的URL和一些随机字符组成。希望在所谓的深度网络中查找文件的搜索引擎可以尝试这些短字符序列。例如。可能没有人在任何地方写过http://example.com/f8fwy链接，但是它可以链接到一个真实的域名（如果你幸运的话，某些网站或文件从未被链接到任何一个）。

然而，随着搜索引擎提供邮件提供商（Google）或聊天引擎（微软，Skype），我认为这种技术变得不那么重要了，因为他们可以尝试通过这些服务获得深层网络链接。

即使没有链接，简单的文件名也可以在字典的帮助下强制使用。像Dirbuster这样的攻击有一些工具。

爬虫是否能够获取网页上的所有目录？

2 个答案:

例外：暴力试验