使用apache Nutch进行网络爬行

时间:2016-11-10 12:13:56

标签: solr nutch

我是apache-nutch / solr的新手。我正在尝试使用它抓取网站。我试着瞥了一眼但却无法获得所需的信息。例如,让我们拿一个网站,我需要获得它的标题,标题,内容。我应该如何启动它或任何有效的链接将不胜感激。

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

通常项目的wiki是good starting point(对于Nutch的1.x版本)。您没有指定您计划使用哪个版本,但1.x是目前推荐的版本(以及我个人的偏好)。