我可以用Nutch爬行,在Cassandra存储,使用Solr索引吗?

时间:2014-01-01 13:39:36

标签: solr cassandra nutch

我正在开发一个关键字分析应用。我希望使用Nutch抓取网页,使用Solr索引输出,最后将数据存储在Cassandra中。

我以后应该可以在Solr上进行搜索查询和分析,它必须从Cassandra获取相关数据。

这种设置可行吗?如果是的话,有什么我应该记住的吗?

3 个答案:

答案 0 :(得分:1)

如果您使用Datastax的Cassandra,将Cassandra表索引到Solr中要容易得多。以下是http://www.datastax.com/what-we-offer/products-services/datastax-enterprise/apache-solr

的链接

答案 1 :(得分:0)

我认为你可以,但我不是Cassandra用户,所以从未尝试过。

您必须配置gora.properties(http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora.properties)才能启用Cassandra。在Nutch 2 Tutorial(http://wiki.apache.org/nutch/Nutch2Tutorial)中为HBase做了那样做。

要知道在Cassandra中映射数据的位置,您需要查看http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora-cassandra-mapping.xml处的映射

Nutch将把数据存储在Cassandra中。关于Solr我不知道(我从未使用过Solr)。

答案 2 :(得分:0)

以编程方式可能......你可以从solr索引得到结果...在cassandra和Solr中保留唯一的id ...从solr获取id并从cassandra获取整个结果.....