Nutch + Solr仅限顶级页面

时间:2013-11-23 00:58:47

标签: java hadoop solr nutch

我一直在尝试使用Nutch在我的urls文件中抓取域的第一页,然后使用Solr在抓取的数据中搜索关键字。到目前为止,我还没有能够以这种方式工作,除非这两个页面链接在一起。

我意识到这可能是没有传入链接的页面问题,因此PageRank算法会丢弃页面内容。我尝试调整参数,以便不在图表中的网址的默认分数更高,但我仍然得到相同的结果。

有没有人知道可以在没有传入链接的页面上构建索引?

谢谢!

2 个答案:

答案 0 :(得分:0)

尝试使用nutch inject命令将“no-incomming-link”URL插入到nutch DB中。

我想如果你在solr索引中没有看到任何内容,那是因为这些URL的数据没有存储在nutch DB中(因为nutch会小心地将其DB与索引同步)。数据库中没有数据可能是因为URL是隔离的,因此您可以尝试使用inject命令来包含这些网站。

我会尝试实际看到内部数据库来验证nutch行为,因为在索引中插入值之前,nutch将数据存储在其数据库中。

分配更高的分数无效,因为只要数据在索引中,lucene就会给你一个结果。

答案 1 :(得分:0)

Solr现在默认使用Tika读取HTML文件,所以这不是问题。

http://wiki.apache.org/solr/TikaEntityProcessor

如果你想要的只是列出的页面,是否有特定的理由使用Nutch爬虫?或者您可以将URL提供给Solr并从那里开始吗?