应用错误收集

我有一个RDD，我使用数据集加入Couchbase表。

plt.xticklabels(rotation=90)

这里的问题是，如果myRDD只附带一个数据，则会加载整个couchbase表。

spark / connecto是否可以优化自身并首先过滤couchbase查询？

现在我通过收集myRDD中的所有键，将其转换为序列，然后在couchbase源创建的IN子句中使用它来解决这个问题。 Spark SQL - IN clause

val couchbaseDS = session.read.couchbase(...)
val myDS = myRDD.toDS()
couchbaseDS.join(myDS, couchbaseDS("key") === myDS("key"))