在Pyspark中一次从数据框中的现有列创建多个列

时间:2020-03-17 13:29:40

标签: pyspark mutate pyspark-dataframes

我有一个包含11列的数据框。我想创建与现有列不同的列。在R中,我们使用dplyr包中的mutate通过以下方式进行操作:

例如说要从col_1创建的col_11&col_12和要从col_2创建的col_21&col_22

new_dataframe = old_dataframe %>% mutate(col_11 = ifelse(col_1 ==0,1,0),
                                         col_12 = ifelse(col_1 >0 , 1,0),
                                         col_21 = ifelse(col_2 == 'some_string_1',1,0),
                                         col_22 = ifelse(col_2 == 'some_string_2',1,0)) %>% as.data.frame

在pyspark中,有没有一种方法可以单行或简单地执行相同的操作? 请注意,我并非完全尝试创建虚拟变量。很少有变量是连续的,因此我也必须对其进行分类。因此,我想复制与上面R中相同的方式。

0 个答案:

没有答案