我正在使用nutch 2.x.所以我试图使用带有深度选项的nutch命令作为
$:nutch inject ./urls/seed.txt -depth 5
执行此命令后获取
之类的消息无法识别的arg -depth
所以当我在这里失败时,我试图使用nutch crawl作为
$:nutch crawl ./urls/seed.txt -depth 5
得到错误
不推荐使用命令抓取,请改用bin / crawl
所以我尝试使用crawl命令在seed.txt中使用深度选项抓取网址,在这种情况下,它要求solr但我不使用solr
所以我的问题是如何通过指定深度来抓取网站
答案 0 :(得分:1)
我的问题是你想通过抓取页面而不是在SOLR中将其编入索引来做什么?
回答你的问题:
如果您想使用Nutch Crawler并且您不想将其索引到SOLR中,请从抓取脚本中删除以下代码。
http://technical-fundas.blogspot.com/2014/07/crawl-your-website-using-nutch-crawler.html
回答你的其他问题:
如何获取Nutch抓取的所有链接的HTML内容(请点击此链接):
How to get the html content from nutch
这肯定会解决您的问题。