java - 使用Nutch或Heritrix进行定向爬行

我看过Nutch和Heritrix的爬行方式。它们都有生成/获取/更新周期的概念，它从一些种子URL开始，并在获取步骤后迭代结果URL。

范围/过滤逻辑适用于应用于提取的URL的正则表达式。

我想做一些非常具体的事情。我不想从页面中提取所有网址，但我宁愿根据某些xpath获取网址。原因是： - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些在外面给出的网址 - 我可能也想跟随'下一页'序列 - 特定爬网周期可能在每个深度中具有不同的基于xpath的过滤器。

有没有人用Heritrix的Nutch做过这样的事情？

由于 Nayn