如何在ubuntu 10.10中配置Nutch和solr?

时间:2012-04-20 23:28:34

标签: solr search-engine web-crawler nutch ubuntu-10.10

我正在为我的最后一年项目建立一个搜索引擎。在过去的两个月里,我对这个主题进行了大量的研究。 我发现我需要一个爬虫来抓取互联网,解析器和索引器。

我正在尝试使用Nutch作为爬虫和solr来索引Nutch抓取的数据。但是我被困在他们两个的安装部分。我试图在互联网上的教程的帮助下在我的系统中安装Nutch和solr,但没有任何对我有用。

我需要某种安装指南或链接,我可以在其中学习如何安装和集成Nutch和solr

接下来我被解析器困住了。我不知道这个阶段。我需要帮助解决在索引之前如何解析数据的问题。

我不想构建谷歌或其他东西。我只需要搜索某些网站上的某些项目。

我有Java经验,我可以轻松地使用它,但我不像你们那样专业,请告诉我我是否正朝着正确的方向前进,以及我接下来要做什么。

我正在使用Ubuntu 10.10,我有Apache Tomcat 7。

1 个答案:

答案 0 :(得分:-1)

This用于nutch安装,this用于与Solr集成。

关于解析器,nutch有自己的解析器集,你不必费心解析。触发crawl命令,自动完成。除非你想解析与荷兰提供的东西不同的东西,否则它不会成为你的问题。如果你想要nutch来解析一些.xyz文件,那么你需要为它编写解析器插件并与nutch集成。