我有一个RDD,我使用数据集加入Couchbase表。
plt.xticklabels(rotation=90)
这里的问题是,如果myRDD只附带一个数据,则会加载整个couchbase表。
spark / connecto是否可以优化自身并首先过滤couchbase查询?
现在我通过收集myRDD中的所有键,将其转换为序列,然后在couchbase源创建的IN子句中使用它来解决这个问题。 Spark SQL - IN clause
val couchbaseDS = session.read.couchbase(...)
val myDS = myRDD.toDS()
couchbaseDS.join(myDS, couchbaseDS("key") === myDS("key"))