应用错误收集

时间：2013-11-23 00:58:47

标签： java hadoop solr nutch

我一直在尝试使用Nutch在我的urls文件中抓取域的第一页，然后使用Solr在抓取的数据中搜索关键字。到目前为止，我还没有能够以这种方式工作，除非这两个页面链接在一起。

我意识到这可能是没有传入链接的页面问题，因此PageRank算法会丢弃页面内容。我尝试调整参数，以便不在图表中的网址的默认分数更高，但我仍然得到相同的结果。

有没有人知道可以在没有传入链接的页面上构建索引？

谢谢！

答案 0 :(得分：0)

尝试使用nutch inject命令将“no-incomming-link”URL插入到nutch DB中。

我想如果你在solr索引中没有看到任何内容，那是因为这些URL的数据没有存储在nutch DB中（因为nutch会小心地将其DB与索引同步）。数据库中没有数据可能是因为URL是隔离的，因此您可以尝试使用inject命令来包含这些网站。

我会尝试实际看到内部数据库来验证nutch行为，因为在索引中插入值之前，nutch将数据存储在其数据库中。

分配更高的分数无效，因为只要数据在索引中，lucene就会给你一个结果。

答案 1 :(得分：0)

Solr现在默认使用Tika读取HTML文件，所以这不是问题。

如果你想要的只是列出的页面，是否有特定的理由使用Nutch爬虫？或者您可以将URL提供给Solr并从那里开始吗？