Pyspark:检查数据是否在数据框中并追加数据

时间:2018-11-19 03:31:57

标签: python dataframe pyspark

我有两个这样的数据框:

df:
+---+-----+--------------+
| id|group|          var1|
+---+-----+--------------+
|a-1|    a|         [1,2]|
|a-2|    a|         [3,4]|
|a-3|    a|           [5]|
|b-1|    b|         [6,7]|
+---+-----+--------------+

new_df:
+------+--------------+
| group|          var1|
+------+--------------+
|     a|             1|
|     a|             8|
|     b|             9|
+------+--------------+

我想检查new_df中的数据是否已经在df中,如果不是,那么将append的数据保存到df。此外,每个var1只能有2个数据。结果将如下所示:

+---+-----+--------------+
| id|group|          var1|
+---+-----+--------------+
|a-1|    a|         [1,2]|
|a-2|    a|         [3,4]|
|a-3|    a|         [5,8]|
|b-1|    b|         [6,7]|
|b-2|    b|           [9]|
+---+-----+--------------+

如何检查数据以及如何将数据追加到数据框的列表中?谢谢!

0 个答案:

没有答案