Question

我正在研究如何使用火花。

在scala中，我有一段代码：

object GeneMatrixFile {

  def main (args: Array[String]) {

  val out = new FileWriter("matrix.txt")
  val order = 20000
  for(i<- 1 to order){
    for(j <- 1 to order){      
     out.write((scala.util.Random.nextDouble()*100).formatted("%3.1f")+"\t")
    }
  out.write("\n")
  }

  println("over")
  out.close()
  }
}

现在我想在hdfs上使用spark生成这样的文件，我不知道如何编写代码，有人帮帮我吗？

Answer 1

您最好从apache spark guide开始。

Spark确实有一个内置函数，可用于创建随机RDD：

val matrix: RDD[Vector] = RandomRDDs.uniformVectorRDD(sc, 10, 10)

如何使用spark在HDFS上生成随机矩阵文件

1 个答案: