Question

我在分割Sparklyr生成的随机林的结果方面存在问题。

我使用以下代码生成一个预测{0 |的模型1}值并预测指定验证集的结果。

model <- ml_random_forest( tbl(sc,"train_set") , formulea)

prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)

此生成的预测对象如下所示：

Source:   query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE

   account_no probability prediction
        <dbl>      <list>      <dbl>
1     5053177   <dbl [2]>          1
2     6508441   <dbl [2]>          1
3     7805527   <dbl [2]>          1
4    10001696   <dbl [2]>          1
5    10004230   <dbl [2]>          1
6    10005647   <dbl [2]>          1
7    10006029   <dbl [2]>          1
8    10018558   <dbl [2]>          0
9    10019161   <dbl [2]>          1
10   10031652   <dbl [2]>          1
# ... with 3.744e+06 more rows

如何在Spark中拆分列表，只获取列表的第一个数字。像这样......

   account_no probability 
        <dbl>      <dbl>
1     5053177   <0.9726>          
2     6508441   <0.1234>

希望有人可以帮助解决这个问题。

问候，Jitske

Answer 1

从GitHub安装最新的devel版本并查找?sdf_separate_column：

prediction %>%  
  sdf_separate_column("probability", c("p0", "p1"))

拆分<dbl [2] =“”> Sparklyr作为火花对象的结果

1 个答案: