应用错误收集

Nutch：得到每个网址的种子网址

时间：2012-01-26 11:56:41

标签： java nutch web-crawler

我尝试将Nutch配置为图像抓取工具，并且已经可以在抓取后获取图片网址。现在，我想获取每个图像网址的种子网址，我该怎么做？谢谢！

1 个答案:

答案 0 :(得分：0)

尝试从已爬网段生成linkdb（倒排索引），您可能会获得网址的父级。如果url有一个父级，那么它将是该url的种子。
请阅读this和this以获取有关命令的帮助。