标签: apache-spark spark-dataframe
我有四个数据帧来自四个csvs,以加入Spark中的一个最终数据帧,所有数据帧都使用set schemas。但是,有时只有1-3个数据帧通过,但它们仍将连接到最终的数据帧中,缺失/空数据帧中的缺失值为null。这样做的最佳方法是什么?我尝试做外连接,但问题是我无法加入空数据帧。
答案 0 :(得分:1)
您可以检查数据框是否为空 df.rdd.isEmpty
如果您发现它是空的,请执行左外连接