Question

我执行了简单的示例（spark，Windows7）并收到意外的错误消息 FileAlreadyExistsException 。我在计算机上找不到该文件夹或文件。

线程“main”中的异常 org.apache.hadoop.mapred.FileAlreadyExistsException：输出目录 file：/ PluralsightData / ReadMeWordCountViaApp已经存在在org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs（FileOutputFormat.java:131）在org.apache.spark.rdd.PairRDDFunctions $$ anonfun $ saveAsHadoopDataset $ 1.apply $ mcV $ sp（PairRDDFunctions.scala：1191）在org.apache.spark.rdd.PairRDDFunctions $$ anonfun $ saveAsHadoopDataset $ 1.apply（PairRDDFunctions.scala：1168）在org.apache.spark.rdd.PairRDDFunctions $$ anonfun $ saveAsHadoopDataset $ 1.apply（PairRDDFunctions.scala：1168）

package main

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._

object WordCounter {
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("Word Counter")
        val sc = new SparkContext(conf)
        //val textFile = sc.textFile("file:///Spark/README.md")
        val textFile = sc.textFile("file:///README.md")
        val tokenizedFileData = textFile.flatMap(line=>line.split(" "))
        val countPrep = tokenizedFileData.map(word=>(word, 1))
        val counts = countPrep.reduceByKey((accumValue, newValue)=>accumValue + newValue)
        val sortedCounts = counts.sortBy(kvPair=>kvPair._2, false)
        sortedCounts.saveAsTextFile("file:///PluralsightData/ReadMeWordCountViaApp")
    }
}

可以找到样本的来源https://github.com/constructor-igor/TechSugar/tree/master/ScalaSamples/WordCounterSample

Answer 1

根据评论：

Spark更愿意避免覆盖任何现有数据。
目标文件的绝对路径允许在本地磁盘上查找结果数据。

sortedCounts.saveAsTextFile（ “文件：/// C：/温度/ ReadMeWordCountViaApp”）

Spark错误“输出目录文件已存在

1 个答案: