应用错误收集

时间：2011-07-03 15:47:13

标签： .net webserver web-crawler

我尝试为每个文件构建一个“抓取工具”或“atuomatic下载器”，这是基于网络服务器/网页。

所以在我的观点中有两种方式：

1）启用目录列表。比起它很容易，读出列表中的数据并下载你看到的每个文件。

2）禁用目录列表。然后怎样呢？唯一的想法是强制文件名并查看服务器的反应（例如：404表示没有文件，403表示找到的目录，数据表示正确找到的数据）。

我的想法是对的吗？还有更好的方法吗？

答案 0 :(得分：2)

您始终可以解析HTML并查看并跟踪（'抓取'）您获得的链接。这就是大多数抓取工具的实现方式。

检查这些库可以帮助您做到这一点：

始终在网站的根目录中查找robots.txt，并确保您遵守网站有关允许抓取哪些网页的规则。

答案 1 :(得分：0)

您不应索引网站管理员阻止您访问的网页。

这就是Robots.txt的全部内容。

您应该检查SiteMap文件，每个文件夹中都有Here

它通常是sitemap.xml，有时它的名字在Robots.txt中提到