mysql - 在C *侧过滤 - 按下过滤器/从Spark查询范围查询到C *

时间：2015-10-26 14:46:24

标签： mysql cassandra apache-spark datastax-enterprise spark-cassandra-connector

我使用datastax / spark-cassandra-connector和C *表填充1B +行（datastax-enterprise dse 4.7.0）来处理spark 1.2.1。我需要执行范围过滤器/查询时间戳参数。

如果不加载整个1B +行表来激活内存（可能需要几个小时才能完成）并且几乎将查询推回到C *，最好的方法是什么？

将rdd与JoinWithCassandraTable一起使用或使用带下推的数据框？还有别的吗？

答案 0 :(得分：1)

JoinWithCassandraTable在我的案例中变成了最好的解决方案。我从这篇文章中学到了很多东西：http://www.datastax.com/dev/blog/zen-art-spark-maintenance并发布了相关问题的答案：Spark JoinWithCassandraTable on TimeStamp partition key STUCK

所有这些都是关于以正确的方式构建C *表（选择好的分区键非常重要），以便将来查询。