Java:检查robots.txt是否允许URL

时间:2018-05-29 10:32:57

标签: java web-crawler

鉴于应用程序具有:

  • robots.txt内容,
  • 感兴趣的网址和
  • 浏览实体元数据(如用户代理字符串等)

如何检查 robots.txt 是否允许某个特定网址?

1 个答案:

答案 0 :(得分:2)

crawler-commons是一个Java API,可以在给定特定机器人名称的情况下解析机器人文件,并返回适用于该机器人的规则。规则有isAllowed(String url)方法,可以完成您的工作。