我正在研究如何使用火花。
在scala中,我有一段代码:
object GeneMatrixFile {
def main (args: Array[String]) {
val out = new FileWriter("matrix.txt")
val order = 20000
for(i<- 1 to order){
for(j <- 1 to order){
out.write((scala.util.Random.nextDouble()*100).formatted("%3.1f")+"\t")
}
out.write("\n")
}
println("over")
out.close()
}
}
现在我想在hdfs上使用spark生成这样的文件,我不知道如何编写代码,有人帮帮我吗?
答案 0 :(得分:0)
您最好从apache spark guide开始。
Spark确实有一个内置函数,可用于创建随机RDD:
val matrix: RDD[Vector] = RandomRDDs.uniformVectorRDD(sc, 10, 10)