我在分割Sparklyr生成的随机林的结果方面存在问题。
我使用以下代码生成一个预测{0 |的模型1}值并预测指定验证集的结果。
model <- ml_random_forest( tbl(sc,"train_set") , formulea)
prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)
此生成的预测对象如下所示:
Source: query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE
account_no probability prediction
<dbl> <list> <dbl>
1 5053177 <dbl [2]> 1
2 6508441 <dbl [2]> 1
3 7805527 <dbl [2]> 1
4 10001696 <dbl [2]> 1
5 10004230 <dbl [2]> 1
6 10005647 <dbl [2]> 1
7 10006029 <dbl [2]> 1
8 10018558 <dbl [2]> 0
9 10019161 <dbl [2]> 1
10 10031652 <dbl [2]> 1
# ... with 3.744e+06 more rows
如何在Spark中拆分列表,只获取列表的第一个数字。像这样......
account_no probability
<dbl> <dbl>
1 5053177 <0.9726>
2 6508441 <0.1234>
希望有人可以帮助解决这个问题。
问候,Jitske
答案 0 :(得分:3)
从GitHub安装最新的devel版本并查找?sdf_separate_column
:
prediction %>%
sdf_separate_column("probability", c("p0", "p1"))