应用错误收集

HttpWebRequest是否服从.Net中的robots.txt？

时间：2011-04-01 01:14:27

标签： .net web-crawler robots.txt

我正在为Web开发人员创建一个工具，用于“扫描”他们网站上的HTML。

这需要我的Asp.Net应用程序从他们的网站下载页面。

为了防止滥用，我想确保我遵守robots.txt以及其他方法。

HttpWebRequest已经这样做了吗？或者是否有一个开源实现我可以用给定用户代理字符串验证robots.txt文件？

1 个答案:

答案 0 :(得分：5)

HttpWebRequest只发出一个HTTP请求。它不遵守robots.txt，因为它不知道它存在。需要另一个请求来查看它是否存在并读取其内容，如果它默认情况下这样做，则会有50％的开销。

对于C＃实现，请查看此处：Anybody got any C# code to parse robots.txt and evaluate URLS against it