Question

我有一个包含大量数据帧的字典，我计划将它们全部合并存储在dbfs中，请尝试以下操作：

***df = sqlContext.createDataFrame([],schema)
for i in dict.keys():
  df = df.union(dict[i])***

要花很多时间才能执行！有没有有效的方法来合并它们？我假设我要去（（（（（a + b）+ c）+ d）+ e）....这就是为什么要花更多时间

Answer 1

DataFrame只能一个接一个地合并，但是您可以在rdd-s上进行并集，然后将最后一个转换回dataframe：

real*8, target