我想从df1中选择其列值存在于df2列中的所有记录。如何使用pyspark数据框做到这一点?

时间:2019-12-03 23:22:23

标签: dataframe join pyspark

这可以使用sql轻松完成。如何使用pyspark数据框执行此操作?我尝试了半连接,但最终出现内存不足的错误。

vindf = sqlContext.createDataFrame(vinRDD,["txid", "tx_hash","vout"])
voutdf = sqlContext.createDataFrame(voutRDD,["hash", "value","n","pubkey"])

我有以上两个pyspark数据帧。我想从voutdf中选择所有记录,其中vindf.tx_hash中不存在其“哈希”

0 个答案:

没有答案