如何从Cassandra并行加载多个表?

时间:2014-09-12 00:41:34

标签: cassandra apache-spark datastax-enterprise

是否可以将Cassandra中的多个表并行加载到上下文中?

我可以一次做一个

val rdd = sc.cassandraTable("test", "words")

,但是如果我需要加入3个表,我是否必须连续加载它们?

欢迎任何并行替代方案。

2 个答案:

答案 0 :(得分:1)

你可以做一个工会,例如

val rdd = sc.cassandraTable("test", "words").union(sc.cassandraTable("test", "numbers"))

后续的RDD将由分区查询,因此应按预期工作。

答案 1 :(得分:0)

只是

  • 分叉一些Akka线程来提交每份工作
  • 确保每个作业都没有所有资源(例如,三个表意味着RAM和核心的三分之一)

然后他们将并行运行