我正在开发一个关键字分析应用。我希望使用Nutch抓取网页,使用Solr索引输出,最后将数据存储在Cassandra中。
我以后应该可以在Solr上进行搜索查询和分析,它必须从Cassandra获取相关数据。
这种设置可行吗?如果是的话,有什么我应该记住的吗?
答案 0 :(得分:1)
如果您使用Datastax的Cassandra,将Cassandra表索引到Solr中要容易得多。以下是http://www.datastax.com/what-we-offer/products-services/datastax-enterprise/apache-solr
的链接答案 1 :(得分:0)
我认为你可以,但我不是Cassandra用户,所以从未尝试过。
您必须配置gora.properties(http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora.properties)才能启用Cassandra。在Nutch 2 Tutorial(http://wiki.apache.org/nutch/Nutch2Tutorial)中为HBase做了那样做。
要知道在Cassandra中映射数据的位置,您需要查看http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora-cassandra-mapping.xml处的映射
Nutch将把数据存储在Cassandra中。关于Solr我不知道(我从未使用过Solr)。
答案 2 :(得分:0)
以编程方式可能......你可以从solr索引得到结果...在cassandra和Solr中保留唯一的id ...从solr获取id并从cassandra获取整个结果.....