Nutch:得到每个网址的种子网址

时间:2012-01-26 11:56:41

标签: java nutch web-crawler

我尝试将Nutch配置为图像抓取工具,并且已经可以在抓取后获取图片网址。 现在,我想获取每个图像网址的种子网址,我该怎么做? 谢谢!

1 个答案:

答案 0 :(得分:0)

尝试从已爬网段生成linkdb(倒排索引),您可能会获得网址的父级。如果url有一个父级,那么它将是该url的种子。
请阅读thisthis以获取有关命令的帮助。