标签: java web-crawler
鉴于应用程序具有:
如何检查 robots.txt 是否允许某个特定网址?
答案 0 :(得分:2)
crawler-commons是一个Java API,可以在给定特定机器人名称的情况下解析机器人文件,并返回适用于该机器人的规则。规则有isAllowed(String url)方法,可以完成您的工作。
isAllowed(String url)