Question

我正在尝试从s3存储桶读取数据Part-xxxx.csv.gz文件，并能够使用Intellij将输出写入s3存储桶。

如果我通过EMR（使用jar文件）运行同一程序，那么我将遇到以下错误。

static PyMethodDef MqC_Methods[] = {
...
    { "SlaveCreate", NS(MqC_SlaveCreate), METH_VARARGS, "\brief doc…" },
...
}

似乎无法读取EMR中的gz文件。但是，如果输入文件是csv，则它正在读取数据而没有任何问题。

我的代码：

Exception in thread "main" org.apache.spark.SparkException: Application application_1543327349114_0001 finished with failed status

我正在使用spark 2.3.0和Hadoop 2.7.3

请在这个问题上帮助我，如何在EMR中读取val df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("s3a://test-system/Samplefile.csv") df.createOrReplaceTempView("data") val res = spark.sql("select count(*),id,geo_id from data group by id,geo_id") res.coalesce(1).write.format("csv").option("header","true").mode("Overwrite") .save("s3a://test-system/Output/Sampleoutput")文件？

stderr日志：

*.csv.gz

gzFiles：从Spark中的s3存储桶读取csv.gz文件

0 个答案: