在R中执行PCA分析时出现Spark Stage错误

时间:2018-03-08 02:31:00

标签: r apache-spark pca

当我运行以下代码行

"SELECT NEW br.com.domain.order.Order( " +
                        "o.id," +
                        "o.description," +
                        "p.status,"+
                        "p.locationId,"+
                        "p.value)"

导致阶段失败,但我无法理解原因

>model_pca <- tbl(sc, "flights") %>% select(air_time,distance,dep_time) %>% 
ml_pca()    

它说用户定义的功能,但我没有使用任何用户定义的功能,我是否错过了任何软件包安装,还是因为我使用带有hadoop 2.7的spark 2.2.0

以下是完整的错误消息:

org.apache.spark.SparkException: Failed to execute user defined function($anonfun$3: (struct<air_time:double,distance:double,dep_time_double_vector_assembler_801c364a4ab0:double>) => vector)

1 个答案:

答案 0 :(得分:0)

这是因为&#34;%&gt;%&#34;代码中的运算符。它的作用取决于您导入的库或您的定义方式。试着&#34;取消链接&#34;这一点。