如何在Spark数据帧中用NAN替换值(问题是并行化)

时间:2019-01-04 17:10:43

标签: r validation na sparkr

任务: 令df为火花数据帧。我们要用n替换df中的值NA

在R中,我只写

df[df==n] <- NA

问题/问题: (因为我是Spark的新手,所以欢迎任何评论)

  • SparkR中与NA等价的是什么? 我发现了isNullisNAN之类的函数,如果有些区别,我会感到困惑。

我能够使用col1ifelse的一列上完成此操作,即

df[[col1]] <- ifelse( df[[col1]] == n, NA, df[[x]])

但我无法对其进行“并行化”。

我尝试过:

df <- spark.lapply(colnamed(df), function(x) {ifelse(df[[x]] == n, NA , df[[x]])})

但我收到了消息

  

工作因阶段失败而中止

我不明白。

1 个答案:

答案 0 :(得分:0)