应用错误收集

时间：2013-02-06 12:17:45

标签： java solr search-engine nutch

我打算建立一个利基搜索引擎。我使用apache-nutch-1.6作为爬虫，使用apache-solr-3.6.2作为搜索者。我必须说网上有关这些技术的最新信息非常少。

我遵循了本教程http://wiki.apache.org/nutch/NutchTutorial，并在我的ubuntu系统上成功安装了apache和solr。我也成功地将种子URL注入webdb并执行爬网。

在http://localhost:8983/solr/admin使用solr界面，我还可以查询已爬网的结果。但这是我收到的输出。 enter image description here

我在这里遗漏了一些东西，早期的apache-nutch-0.7有一场战争，它产生了一个清晰的html输出。 enter image description here 。我如何实现这一目标......或者如果有人能指出我最新的教程或指南，我们非常感激。

答案 0 :(得分：2)

有几件事：

如果您刚刚开始，请不要使用Solr 3.6，直接进入最新的4.1+。许多事情都发生了变化，并添加了许多新功能。
您似乎在说您将Solr + UI直接暴露给一般网站 - 这是一个非常糟糕的主意，因为Solr完全不安全并且允许基于Web的删除查询。你真的想要一个中间的业务层。
使用Solr 4.1，有一个漂亮的Admin UI，还有一个/ browse页面，显示如何使用Velocity来完成Solr支持的页面。或者查看类似Project Blacklight的内容，了解如何通过Solr获取UI。

答案 1 :(得分：0)

我在阅读上述链接的内容后同意，我对此感到非常生气。 Solr包提供了查询solr所需的所有对象。

事实上，基本的罐子只是solr-solrj-3.4.0.jar，commons-httpclient-3.1.jar和slf4j-api-1.6.4.jar。

任何人都可以使用这些对象构建一个java搜索引擎来查询数据库并拥有一个精美的用户界面。

再次感谢。