我打算建立一个利基搜索引擎。我使用apache-nutch-1.6作为爬虫,使用apache-solr-3.6.2作为搜索者。我必须说网上有关这些技术的最新信息非常少。
我遵循了本教程http://wiki.apache.org/nutch/NutchTutorial,并在我的ubuntu系统上成功安装了apache和solr。我也成功地将种子URL注入webdb并执行爬网。
在http://localhost:8983/solr/admin
使用solr界面,我还可以查询已爬网的结果。但这是我收到的输出。
我在这里遗漏了一些东西,早期的apache-nutch-0.7有一场战争,它产生了一个清晰的html输出。 。我如何实现这一目标......或者如果有人能指出我最新的教程或指南,我们非常感激。
答案 0 :(得分:2)
有几件事:
答案 1 :(得分:0)
我在下面找到了链接 http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/ 它回答了我的问题。
我在阅读上述链接的内容后同意,我对此感到非常生气。 Solr包提供了查询solr所需的所有对象。
事实上,基本的罐子只是solr-solrj-3.4.0.jar,commons-httpclient-3.1.jar和slf4j-api-1.6.4.jar。
任何人都可以使用这些对象构建一个java搜索引擎来查询数据库并拥有一个精美的用户界面。
再次感谢。