我是Spark的新手,目前我正在使用R API通过sparkly包使用它。我从hive查询创建了一个Spark数据框。源表中未正确指定数据类型,我试图通过利用dplyr
包中的函数来重置数据类型。以下是我尝试的代码:
prod_dev <- sdf_load_table(...)
num_var <- c("var1", "var2"....)
cat_var <- c("var_a","var_b", ...)
pos1 <- which(colnames(prod_dev) %in% num_var)
pos2 <- which(colnames(prod_dev) %in% cat_var)
prod_model_tbl <- prod_dev %>%
mutate(age = 2016- as.numeric(substr(dob_yyyymmdd,1,4))) %>%
mutate(msa_fg = ifelse(is.na(msacode2000), 0, 1)) %>%
mutate(csa_fg = ifelse(is.na(csacode), 0, 1)) %>%
mutate_each(funs(factor), pos2) %>%
mutate_each(funs(as.numeric), pos1)
如果prod_dev是R数据帧,代码将起作用。但是在Spark Data框架上使用它似乎不会产生正确的结果:
> head(prod_model_tbl)
Source: query [?? x 99]
Database: spark connection master=yarn-client app=sparklyr_test local=FALSE
Error: org.apache.spark.sql.AnalysisException: undefined function FACTOR; line 97 pos 2248 at org.apache.spark.sql.hive.HiveFunctionRegistry....
有人可以建议如何对Spark数据框进行所需的更改吗?
答案 0 :(得分:5)
通常,您可以使用标准R泛型函数进行类型转换。例如:
df <- data.frame(x=c(1, NA), y=c("-1", "2"))
copy_to(sc, df, "df", overwrite=TRUE) %>%
mutate(x_char = as.character(x)) %>%
mutate(y_numeric = as.numeric(y))
Source: query [2 x 4]
Database: spark connection master=...
x y x_char y_numeric
<dbl> <chr> <chr> <dbl>
1 1 -1 1.0 -1
2 NaN 2 <NA> 2
问题是Spark没有提供R factor
的任何直接等价物。
在Spark SQL中,我们使用double
类型和列元数据来表示分类变量和ML Transformers
,它们不是SQL的一部分,用于编码。因此,factor
/ as.factor
没有地方。使用ML时SparkR提供了一些自动转换,但我不确定sparklyr
中是否存在类似的机制(我最接近的是ml_create_dummy_variables
)。