具有通配符支持的Java robots.txt解析器

时间:2011-08-30 12:33:58

标签: java web-applications wildcard robots.txt

我正在寻找Java中的robots.txt解析器,它支持与Googlebot相同的pattern matching rules

我找到了一些解析robots.txt文件的库,但它们都没有支持Googlebot样式的模式匹配:

  • Heritrix(此主题有open issue
  • Crawler4j(看起来与Heritrix的实现相同)
  • jrobotx

有没有人知道可以做到这一点的java库?

1 个答案:

答案 0 :(得分:1)

Nutch似乎正在使用crawler-commonssome custom code的组合(请参阅RobotsRulesParser.java)。不过,我不确定目前的状况。

特别是,问题NUTCH-1455看起来与您的需求密切相关:

  

如果在http.robots.agents中配置的用户代理名称包含空格,即使它完全包含在robots.txt中,它也不匹配   http.robots.agents =“下载Ninja,*”

或许值得尝试/修补/提交修复:)