如果我在spark数据框中有大约3000个变量,那么如何创建3个每个有1000个变量的数据框

时间:2018-12-25 06:34:21

标签: pyspark pyspark-sql

我有3000个变量的大数据框。我想将其分为3个数据帧,每个数据帧分别包含1000、1000、1000个变量。 到目前为止,我已经尝试制作1000、1000和1000个变量名的3个列表。但是我不知道如何使用列表仅选择这1000个变量。

1 个答案:

答案 0 :(得分:2)

您可以按以下方式使用df.select()

first_df = df.select(df.columns[:1000])
second_df = df.select(df.columns[1000:2000])
third_df = df.select(df.columns[2000:3000])

希望有帮助:)