应用错误收集

Cassandra表分析方法？

时间：2016-05-24 12:43:30

标签： java apache-spark solr cassandra ignite

我需要对C *表中相对较大的分区进行实时过滤和排序~20亿行，每行超过一百列。应该可以对列的任何组合进行筛选和排序。我们尝试了Apache Solr（DataStax Enterprise 4.8）来完成这项工作，但遇到了下一个问题：

Solr索引在频繁和批量数据更新的情况下工作不佳
有时Solr只是不重建索引（等待几个小时）
Solr只能读取CL = ONE，因此数据可能不一致

所以现在我们寻找另一种方法。我们现在正在尝试Apache Spark 1.4。但看起来排序性能并不令人满意 - 对于2亿行（我们的目标~1-2秒）约为1.5分钟。也许我们正在做错事，因为我们正处于Spark学习的最初阶段。我也理解，使用更多的处理器内核和内存可能会带来更好的性能。

今天我已经阅读了有关内存索引的Apache Inginte。可能它对我们的案例来说是更好的工具？

所以现在我只是想找一个工具来执行这样的工作。

感谢。

p.s。：DataStax Enterprise 4.8，Apache Cassandra 2.1.9.791，Apache Solr 4.10.3.1.172，Apache Spark 1.4.1.1。

3 个答案:

答案 0 :(得分：1)

我认为您的方法是最好的。 Spark（例如SparkSQL）或内存数据网格（如Ignite）。两者都将执行相同的操作-将整个内容推送到内存中，并对数据进行随机整理和切块。 http://velvia.github.io/Subsecond-Joins-in-Spark-Cassandra/ Flink是另一个可以考虑的选择，但与Spark并没有什么真正的区别。

另一方面，应该有23亿行适合Postgres DB或类似的行。检查是否还不够。

在Hadoop世界中，您再次拥有Hive（缓慢且稳定）或Impala（更快且内存更多）或Spark。但是这些对Cassandra来说效果不佳。而且我不认为您的数据足够考虑Hadoop环境（维护成本）。

答案 1 :(得分：0)

很抱歉，但是在2秒内在2bln行上排序超过一百列。我认为这将是一个很大的挑战。我的意思是你有200bln列。建议每个分区密钥最多为2bln。我认为2bln每个分区太多了。如果你想要更好的火花性能，你必须找到瓶颈。你能写一些关于你的设置吗？你有几个cassandra节点？多少个Spark节点？硬件规格？

答案 2 :(得分：0)

Apache Ignite具有索引的完整SQL支持，您可以使用这些索引来提高案例的性能。我肯定会尝试。

有关详细信息，请参阅此页：https://apacheignite.readme.io/docs/sql-queries