gzFiles:从Spark中的s3存储桶读取csv.gz文件

时间:2018-11-27 18:06:55

标签: amazon-web-services apache-spark amazon-s3 apache-spark-sql amazon-emr

我正在尝试从s3存储桶读取数据Part-xxxx.csv.gz文件,并能够使用Intellij将输出写入s3存储桶。

如果我通过EMR(使用jar文件)运行同一程序,那么我将遇到以下错误。

static PyMethodDef MqC_Methods[] = {
...
    { "SlaveCreate", NS(MqC_SlaveCreate), METH_VARARGS, "\brief doc…" },
...
}

似乎无法读取EMR中的gz文件。但是,如果输入文件是csv,则它正在读取数据而没有任何问题。

我的代码:

Exception in thread "main" org.apache.spark.SparkException: Application application_1543327349114_0001 finished with failed status

我正在使用spark 2.3.0和Hadoop 2.7.3

请在这个问题上帮助我,如何在EMR中读取val df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("s3a://test-system/Samplefile.csv") df.createOrReplaceTempView("data") val res = spark.sql("select count(*),id,geo_id from data group by id,geo_id") res.coalesce(1).write.format("csv").option("header","true").mode("Overwrite") .save("s3a://test-system/Output/Sampleoutput") 文件?

stderr日志:

*.csv.gz

0 个答案:

没有答案