我的要求是使用Nutch从HBASE抓取数据,然后将其索引到Solr。我怎么能继续这个?
答案 0 :(得分:1)
Nutch旨在抓取网站,因此不知道如何抓取hbase。
由于您尝试将内容从hbase索引到solr,因此至少有两个选项:
如果您有一个将数据保存到hbase的应用程序,请在将数据保存到hbase后修改它以将数据索引到solr中。
您还可以编写Map / Reduce作业,将数据从hbase发送到solr。
您还应该查看lily project。它集成了hbase和solr。
此外,如果您的搜索查询很简单,您可以设计您的hbase架构,这样您就不需要solr。
答案 1 :(得分:1)
我不认为“抓取”是数据库使用的正确术语。抓取是一个特定的用例,当您想要“抓取”网页时,您不知道自己的开头是什么。你不知道终点是什么。因此,你从某个时刻开始尝试发现那里的东西。
说到数据库,像HBase这样的NOSQL数据库。您已经“知道”该数据库中的内容。您所要做的就是完全检索信息,或根据特定查询部分检索信息。
我看到可能在您的情况下,您可以调整Lucene来从HBase查询的数据构建索引,然后将这些索引提供给Solr以创建完整的承诺搜索应用程序。
希望这可能是您正在寻找的方向。