我正在为我的最后一年项目建立一个搜索引擎。在过去的两个月里,我对这个主题进行了大量的研究。 我发现我需要一个爬虫来抓取互联网,解析器和索引器。
我正在尝试使用Nutch作为爬虫和solr来索引Nutch抓取的数据。但是我被困在他们两个的安装部分。我试图在互联网上的教程的帮助下在我的系统中安装Nutch和solr,但没有任何对我有用。
我需要某种安装指南或链接,我可以在其中学习如何安装和集成Nutch和solr 。
接下来我被解析器困住了。我不知道这个阶段。我需要帮助解决在索引之前如何解析数据的问题。
我不想构建谷歌或其他东西。我只需要搜索某些网站上的某些项目。
我有Java经验,我可以轻松地使用它,但我不像你们那样专业,请告诉我我是否正朝着正确的方向前进,以及我接下来要做什么。
我正在使用Ubuntu 10.10,我有Apache Tomcat 7。