我有一个pyspark
数据帧,它具有可变的列数,例如C1,C2,C3,F1,F2 ... F100。我需要将F1,F2..F100合并为一列dict / map数据类型,如下所示。如何使用pyspark
来做到这一点?
C1,C2,C3是固定名称列,而F1,F2,F100是可变名称。
输入:
C1 C2 C3 F1 F2 F100
"1" "2" "3" "1" "2" "100"
输出:
C1 C2 C3 Features
"1" "2" "3" {"F1":"1", "F2":"2", "F100": "100"}