Question

我有一些像这样的代码

  wordCounts
  .map{ case (word, count) =>
    Seq(
      word,
      count
    ).mkString("\t")
  }
  .coalesce(1,true)
  .saveAsTextFile("s3n://mybucket/data/myfilename.csv")

但是myfilename.csv是作为我的S3存储桶中的目录创建的，文件名总是像myfilename.csv / part-00000？有没有办法可以更改我写的文件的名称？谢谢！

Answer 1

我强烈建议您使用Databrick的spark-csv软件包来读取和编写Spark中的csv文件。使用此软件包的许多好处之一是它允许您指定输出csv文件的名称：）

spark RDD saveAsTextFile不使用指定的文件名

1 个答案: