使PHP Web Crawler尊重任何网站的robots.txt文件

时间:2012-08-14 13:45:57

标签: robots.txt robot

我开发了一个Web Crawler,现在我想尊重我正在抓取的网站的robots.txt文件。

我看到这是robots.txt文件结构:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

我可以逐行阅读,然后使用具有空格字符的爆炸作为分隔符来查找数据。

还有其他方法可以加载整个数据吗?

这种文件是否有语言,比如XPath?

或者我必须解释整个文件吗?

欢迎任何帮助,即使是链接,如果找到重复的话......

1 个答案:

答案 0 :(得分:1)

结构非常简单,所以你可以做的最好的事情就是自己解析文件。我会逐行阅读它,正如你所说的那样寻找像User-agent,Disallow等关键字。