应用错误收集

如何在Cassandra节点上实现数据局部性

时间：2014-09-18 09:51:08

标签： cassandra colocation

我正在寻找一个解决方案，这将允许我将代码与数据共存。作为Db，我有Cassandra，并希望能够获取数据，即在特定节点上。

这里的重要性是我尝试从我自己的代码中实现它而不使用框架，如Hadoop或Spark。

如果有人可以解释或提供链接，我会更聪明，因为我还没有找到解决方案。这里的问题是，如何通过Cassandra实现这一目标。

提前致谢

1 个答案:

答案 0 :(得分：2)

警告这很可能不是你应该做的事情：

最简单的方法是使用字节顺序分区程序。这会根据主键的实际字节顺序将数据放在节点上，而不是使用散列。此技术仅适用于专家并消除了Cassandra的许多好处，只有那些真正了解权衡的人才能使用。 ByteOrderedPartitioner还给应用程序设计人员和sysops团队带来了更多的负担，因为系统现在无法以易于理解的方式扩展。

使用Spark或Hadoop是解决此问题的正确方法：

真正的解决方案是使用Hadoop或Spark。您可以通过尝试直接从磁盘读取sstables来获取您要查找的数据位置。例如：http://www.fullcontact.com/blog/cassandra-sstables-offline/