数据框列的Pyspark并行化循环

时间:2018-06-25 12:12:07

标签: python-3.x dataframe pyspark

我有一个带有封装列的原始Dataframe pyspark。我需要循环所有列以解开这些列。我不知道姓名栏,他们可能会改变。所以我需要通用算法。问题是我不能使用经典循环,因为我需要并行代码。

数据示例:

Timestamp | Layers
1456982   | [[1, 2],[3,4]]
1486542   | [[3,5], [5,5]]

在层中,这是一列,其中包含其他列(具有自己的列名称)。我的目标是拥有这样的东西:

Timestamp | label | number1 | text | value
1456982   | 1     | 2       |3     |4
1486542   | 3     | 5       |5     |5

如何使用pyspark函数在列上循环?

感谢建议

1 个答案:

答案 0 :(得分:1)

您可以对此使用归约功能。我不知道您想做什么,但是假设您要在所有列中加1:

from functools import reduce
from pyspark.sql import functions as F

def add_1(df, col_name):
    return df.withColumn(col_name, F.col(col_name)+1) # using same column name will update column

reduce(add_1, df.columns, df)

编辑: 我不确定不转换rdd就解决它。也许这会有所帮助:

from pyspark.sql import Row

flatF = lambda col: [item for item in l for l in col]
df \
    .rdd \
    .map(row: Row(timestamp=row['timestamp'],
          **dict(zip(col_names, flatF(row['layers']))))) \
    .toDF()