我正在寻找Java中的robots.txt解析器,它支持与Googlebot相同的pattern matching rules。
我找到了一些解析robots.txt文件的库,但它们都没有支持Googlebot样式的模式匹配:
有没有人知道可以做到这一点的java库?
答案 0 :(得分:1)
Nutch似乎正在使用crawler-commons与some custom code的组合(请参阅RobotsRulesParser.java)。不过,我不确定目前的状况。
特别是,问题NUTCH-1455看起来与您的需求密切相关:
如果在http.robots.agents中配置的用户代理名称包含空格,即使它完全包含在robots.txt中,它也不匹配 http.robots.agents =“下载Ninja,*”
或许值得尝试/修补/提交修复:)