Question

我使用Naive Bayes算法对文章进行分类，并希望访问部分结果的“概率”列：

Animated.Value

在最后一行，打破

val Array(trainingDF, testDF) = rawDataDF.randomSplit(Array(0.6, 0.4))
    val ppline = MyUtil.createTrainPpline(rawDataDF)
    val model = ppline.fit(trainingDF)
    val testRes = model.transform(testDF)
    testRes.filter($"probability"(0).as[Double] === 1).show()

Answer 1

您始终可以获取基础RDD并过滤：

val filteredRes = results.rdd.filter(row => row.getAs[Vector]("probability")(0) == 1)

如果您需要，可以将其转换回dataframe：

val df = spark.createDataFrame(filteredRes, results.schema)

Answer 2

请注意，有几个问题已经打开以跟踪此问题：

https://issues.apache.org/jira/browse/SPARK-19653

https://issues.apache.org/jira/browse/SPARK-12806

目前，Vector不是一流的公民＆＃34;在Spark SQL API中

org.apache.spark.sql.AnalysisException：无法从概率中提取值

2 个答案: