我有一个包含11列的数据框。我想创建与现有列不同的列。在R中,我们使用dplyr包中的mutate通过以下方式进行操作:
例如说要从col_1创建的col_11&col_12和要从col_2创建的col_21&col_22
new_dataframe = old_dataframe %>% mutate(col_11 = ifelse(col_1 ==0,1,0),
col_12 = ifelse(col_1 >0 , 1,0),
col_21 = ifelse(col_2 == 'some_string_1',1,0),
col_22 = ifelse(col_2 == 'some_string_2',1,0)) %>% as.data.frame
在pyspark中,有没有一种方法可以单行或简单地执行相同的操作? 请注意,我并非完全尝试创建虚拟变量。很少有变量是连续的,因此我也必须对其进行分类。因此,我想复制与上面R中相同的方式。