如何修改Solr给出的搜索结果页面?

时间:2013-02-06 12:17:45

标签: java solr search-engine nutch

我打算建立一个利基搜索引擎。我使用apache-nutch-1.6作为爬虫,使用apache-solr-3.6.2作为搜索者。我必须说网上有关这些技术的最新信息非常少。

我遵循了本教程http://wiki.apache.org/nutch/NutchTutorial,并在我的ubuntu系统上成功安装了apache和solr。我也成功地将种子URL注入webdb并执行爬网。

http://localhost:8983/solr/admin使用solr界面,我还可以查询已爬网的结果。但这是我收到的输出。 enter image description here

我在这里遗漏了一些东西,早期的apache-nutch-0.7有一场战争,它产生了一个清晰的html输出。 enter image description here。我如何实现这一目标......或者如果有人能指出我最新的教程或指南,我们非常感激。

2 个答案:

答案 0 :(得分:2)

有几件事:

  • 如果您刚刚开始,请不要使用Solr 3.6,直接进入最新的4.1+。许多事情都发生了变化,并添加了许多新功能。
  • 您似乎在说您将Solr + UI直接暴露给一般网站 - 这是一个非常糟糕的主意,因为Solr完全不安全并且允许基于Web的删除查询。你真的想要一个中间的业务层。
  • 使用Solr 4.1,有一个漂亮的Admin UI,还有一个/ browse页面,显示如何使用Velocity来完成Solr支持的页面。或者查看类似Project Blacklight的内容,了解如何通过Solr获取UI。

答案 1 :(得分:0)

我在下面找到了链接 http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/ 它回答了我的问题。

我在阅读上述链接的内容后同意,我对此感到非常生气。 Solr包提供了查询solr所需的所有对象。

事实上,基本的罐子只是solr-solrj-3.4.0.jar,commons-httpclient-3.1.jar和slf4j-api-1.6.4.jar。

任何人都可以使用这些对象构建一个java搜索引擎来查询数据库并拥有一个精美的用户界面。

再次感谢。