spark RDD saveAsTextFile不使用指定的文件名

时间:2016-04-15 01:13:23

标签: amazon-s3 apache-spark rdd

我有一些像这样的代码

  wordCounts
  .map{ case (word, count) =>
    Seq(
      word,
      count
    ).mkString("\t")
  }
  .coalesce(1,true)
  .saveAsTextFile("s3n://mybucket/data/myfilename.csv")

但是myfilename.csv是作为我的S3存储桶中的目录创建的,文件名总是像myfilename.csv / part-00000?有没有办法可以更改我写的文件的名称?谢谢!

1 个答案:

答案 0 :(得分:0)

我强烈建议您使用Databrick的spark-csv软件包来读取和编写Spark中的csv文件。使用此软件包的许多好处之一是它允许您指定输出csv文件的名称:)