我想知道如何解析java中的robots.txt。
是否已有任何代码?
答案 0 :(得分:5)
答案 1 :(得分:2)
SourceForge上还有jrobotx library。
(完全披露:我剥离了构成该库的代码。)
答案 2 :(得分:0)
还有一个新版本的crawler-commons:
https://github.com/crawler-commons/crawler-commons
该库旨在实现任何网络爬虫的通用功能,这包括一个非常方便的robots.txt解析器