如何处理pyspark数据帧列

时间:2017-02-08 08:32:38

标签: python pyspark spark-dataframe

我有一个带有> 4k列的pyspark df,没有任何标签/标题。根据列值,我需要对每列应用特定的操作。

我使用pandas做了同样的事情,但我不想使用pandas并希望直接在spark数据帧上应用列式转换。 任何想法,如果df具有> 4k列而没有任何标签,我如何应用列式转换。另外我不想在特定的df列索引上应用转换。

1 个答案:

答案 0 :(得分:0)

根据Spark文档,数据框包含 - 与您所说的不同 - 标题,非常类似于数据库表。

在任何情况下,一个简单的for循环应该可以解决这个问题:

for column in spark_dataframe.columns:
    (do whatever you want to do with your columns)