如何解析和获取XML sitemap nutch

时间:2014-02-12 21:39:40

标签: xml web-crawler sitemap nutch

当Nutch提取站点地图时,它不会继续获取站点地图中标签中的所有链接。

我设置了什么配置选项来进行nutch抓取并获取站点地图中提到的所有链接。

2 个答案:

答案 0 :(得分:1)

我在Nutch Wiki上发现了这个链接 https://wiki.apache.org/nutch/SitemapFeature

答案 1 :(得分:0)

您可以看到nutch issue

有一个适用于nutch站点地图解析器here

的工作