应用错误收集

我有一个包含11列的数据框。我想创建与现有列不同的列。在R中，我们使用dplyr包中的mutate通过以下方式进行操作：

例如说要从col_1创建的col_11＆col_12和要从col_2创建的col_21＆col_22

new_dataframe = old_dataframe %>% mutate(col_11 = ifelse(col_1 ==0,1,0),
                                         col_12 = ifelse(col_1 >0 , 1,0),
                                         col_21 = ifelse(col_2 == 'some_string_1',1,0),
                                         col_22 = ifelse(col_2 == 'some_string_2',1,0)) %>% as.data.frame

在pyspark中，有没有一种方法可以单行或简单地执行相同的操作？请注意，我并非完全尝试创建虚拟变量。很少有变量是连续的，因此我也必须对其进行分类。因此，我想复制与上面R中相同的方式。

在Pyspark中一次从数据框中的现有列创建多个列

0 个答案: