如何使用nutch从hbase抓取数据

时间:2011-12-13 07:16:27

标签: hbase nutch

我的要求是使用Nutch从HBASE抓取数据,然后将其索引到Solr。我怎么能继续这个?

2 个答案:

答案 0 :(得分:1)

Nutch旨在抓取网站,因此不知道如何抓取hbase。

由于您尝试将内容从hbase索引到solr,因此至少有两个选项:

如果您有一个将数据保存到hbase的应用程序,请在将数据保存到hbase后修改它以将数据索引到solr中。

您还可以编写Map / Reduce作业,将数据从hbase发送到solr。

您还应该查看lily project。它集成了hbase和solr。

此外,如果您的搜索查询很简单,您可以设计您的hbase架构,这样您就不需要solr。

答案 1 :(得分:1)

我不认为“抓取”是数据库使用的正确术语。抓取是一个特定的用例,当您想要“抓取”网页时,您不知道自己的开头是什么。你不知道终点是什么。因此,你从某个时刻开始尝试发现那里的东西。

说到数据库,像HBase这样的NOSQL数据库。您已经“知道”该数据库中的内容。您所要做的就是完全检索信息,或根据特定查询部分检索信息。

我看到可能在您的情况下,您可以调整Lucene来从HBase查询的数据构建索引,然后将这些索引提供给Solr以创建完整的承诺搜索应用程序。

希望这可能是您正在寻找的方向。