因此,我尝试缠绕约3个数据帧,结果应如下所示:
df1
A
D
G
df2
B
E
H
df3
C
F
I
产生的df:
A
B
C
D
E
F
G
H
I
我尝试过:
for i in len(df1+df2+df3):
final_df.append(i)
我想通过n个数据帧尽可能高效地执行此操作
答案 0 :(得分:1)
引用Spark unionAll multiple dataframes:
您可以简单地将所有数据帧放入列表中,并对它们执行unionAll
,如下所示:
from functools import reduce
from pyspark.sql import DataFrame
dfs = [df1,df2,df3]
df = reduce(DataFrame.unionAll, dfs)
答案 1 :(得分:0)
使用pd.concat
:
pd.concat([df1, df2, df3], ignore_index=True)
您可以连接任意数量的数据框。