将Spark数据集从一种类型映射到另一种类型时如何指定编码器?

时间:2017-11-27 14:50:15

标签: apache-spark apache-spark-dataset

我有一个以下类型的Spark数据集:

func textField(_ textField: UITextField, shouldChangeCharactersIn range: NSRange, replacementString string: String) -> Bool {
        let array = ["g","d","s","a"]
        if array.contains(string) {
            // Typed character is in the array
        } else {
            // Typed character is not in the array
        }
        return true
    }

我想将数组映射到Vector,以便我可以将它用作ml.clustering.KMeans.fit(...)的输入数据集。所以我尝试做这样的事情:

org.apache.spark.sql.Dataset[Array[Double]]

但是这失败并出现以下错误:

val featureVectors = vectors.map(r => Vectors.dense(r))

我想我需要为地图操作指定一个编码器,但我很难找到一种方法来做到这一点。有什么想法吗?

0 个答案:

没有答案