标签: xml web-crawler sitemap nutch
当Nutch提取站点地图时,它不会继续获取站点地图中标签中的所有链接。
我设置了什么配置选项来进行nutch抓取并获取站点地图中提到的所有链接。
答案 0 :(得分:1)
我在Nutch Wiki上发现了这个链接 https://wiki.apache.org/nutch/SitemapFeature
答案 1 :(得分:0)
您可以看到nutch issue。
有一个适用于nutch站点地图解析器here