在java中访问robots.txt文件

时间:2012-04-10 23:38:34

标签: java web-crawler robots.txt

我是java的新手。我想创建一个简单的web crawler.how来访问java.actually网站的robots.txt文件我对robots.txt了解不多。请帮助我。

1 个答案:

答案 0 :(得分:1)

您需要解决两个任务:

  1. 使用HTTP库通过HTTP获取文件 - How to send HTTP request in java?
  2. 为robots.txt文件编写或使用解析器 - robots.txt parser java