robots.txt解析器java

时间:2010-06-29 13:24:47

标签: java parsing robots.txt

我想知道如何解析java中的robots.txt。

是否已有任何代码?

3 个答案:

答案 0 :(得分:5)

Heritrix是一个用Java编写的开源Web爬虫。通过他们的javadoc,我看到他们有一个实用工具类Robotstxt来解析robots.txt文件。

答案 1 :(得分:2)

SourceForge上还有jrobotx library

(完全披露:我剥离了构成该库的代码。)

答案 2 :(得分:0)

还有一个新版本的crawler-commons:

https://github.com/crawler-commons/crawler-commons

该库旨在实现任何网络爬虫的通用功能,这包括一个非常方便的robots.txt解析器