标签: java nutch web-crawler
我尝试将Nutch配置为图像抓取工具,并且已经可以在抓取后获取图片网址。 现在,我想获取每个图像网址的种子网址,我该怎么做? 谢谢!
答案 0 :(得分:0)
尝试从已爬网段生成linkdb(倒排索引),您可能会获得网址的父级。如果url有一个父级,那么它将是该url的种子。 请阅读this和this以获取有关命令的帮助。