使用Spark到Couchbase数据集对Join进行过滤

时间:2018-03-13 22:50:14

标签: apache-spark spark-dataframe couchbase

我有一个RDD,我使用数据集加入Couchbase表。

plt.xticklabels(rotation=90)

这里的问题是,如果myRDD只附带一个数据,则会加载整个couchbase表。

spark / connecto是否可以优化自身并首先过滤couchbase查询?

现在我通过收集myRDD中的所有键,将其转换为序列,然后在couchbase源创建的IN子句中使用它来解决这个问题。 Spark SQL - IN clause

val couchbaseDS = session.read.couchbase(...)
val myDS = myRDD.toDS()
couchbaseDS.join(myDS, couchbaseDS("key") === myDS("key"))

0 个答案:

没有答案