Question

我有三列（字符串）的csv文件，我有这个代码用于在Zeppelin上集群

这是代码：

case class kmeansScore(k: String, score: String,j: String  )
val rawData = sc.textFile("/resources/data/v1.csv")
rawData.map(_.split(',').last).countByValue().toSeq.sortBy(_._2).reverse.foreach(println)

import org.apache.spark.mllib.linalg._
val labelsAndData = rawData.zipWithIndex.flatMap {
  case (line,index) =>
    if (index == 0) {
      None
    } else {
      val buffer = line.split(',').toBuffer
      buffer.remove(1, 4)
      val label = buffer.remove(buffer.length-1)
      val vector = Vectors.dense(buffer.map(_.toDouble).toArray)
      Some((label,vector))
    }
}
import org.apache.spark.mllib.clustering._   
def distance(a: Vector, b: Vector) = math.sqrt(a.toArray.zip(b.toArray).map(p => p._1 - p._2).map(d => d * d).sum)
def distToCentroid(datum: Vector, model: KMeansModel) = {
  val cluster = model.predict(datum)
  val centroid = model.clusterCenters(cluster)
  distance(centroid, datum)
}

import org.apache.spark.rdd._
val dataAsArray = labelsAndData.values.map(_.toArray).cache()
val dataAsArray.first().length

但我收到了这个错误：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 90.0 failed 1 times, most recent failure: Lost task 0.0 in stage 90.0 (TID 138, localhost): java.lang.IndexOutOfBoundsException: 1
    at scala.collection.mutable.ArrayBuffer.remove(ArrayBuffer.scala:158)

有什么问题？我在https://my.datascientistworkbench.com/tools/zeppelin-notebook/

工作Zeppelin

Answer 1

了解如何阅读堆栈跟踪。他们会告诉你错误在哪里。没有适当的堆栈跟踪，我们只能推测。

特别是，代码中的行 会失败吗？

我的盲目猜测最后一行是空的，然后＆＃34;删除＆＃34;没有这个例外。

您的代码对我来说效率相当低。我只能建议使用其他工具（包括非火花工具）对其进行基准测试。我知道人们喜欢所有＆＃34;功能性＆＃34;地图和拉链等东西。但是，当你做数字时，你会感到惊讶。

使用Apache spark Zeppelin进行k-means聚类

1 个答案: