标签: solr nutch
我是apache-nutch / solr的新手。我正在尝试使用它抓取网站。我试着瞥了一眼但却无法获得所需的信息。例如,让我们拿一个网站,我需要获得它的标题,标题,内容。我应该如何启动它或任何有效的链接将不胜感激。
答案 0 :(得分:0)
这两个将有助于一步一步。
答案 1 :(得分:0)
通常项目的wiki是good starting point(对于Nutch的1.x版本)。您没有指定您计划使用哪个版本,但1.x是目前推荐的版本(以及我个人的偏好)。