如何使用spark在HDFS上生成随机矩阵文件

时间:2015-04-20 08:40:32

标签: apache-spark hdfs rdd

我正在研究如何使用火花。

在scala中,我有一段代码:

object GeneMatrixFile {

  def main (args: Array[String]) {

  val out = new FileWriter("matrix.txt")
  val order = 20000
  for(i<- 1 to order){
    for(j <- 1 to order){      
     out.write((scala.util.Random.nextDouble()*100).formatted("%3.1f")+"\t")
    }
  out.write("\n")
  }

  println("over")
  out.close()
  }
}

现在我想在hdfs上使用spark生成这样的文件,我不知道如何编写代码,有人帮帮我吗?

1 个答案:

答案 0 :(得分:0)

您最好从apache spark guide开始。

Spark确实有一个内置函数,可用于创建随机RDD:

val matrix: RDD[Vector] = RandomRDDs.uniformVectorRDD(sc, 10, 10)