我正在尝试从s3存储桶读取数据Part-xxxx.csv.gz文件,并能够使用Intellij将输出写入s3存储桶。
如果我通过EMR(使用jar文件)运行同一程序,那么我将遇到以下错误。
static PyMethodDef MqC_Methods[] = {
...
{ "SlaveCreate", NS(MqC_SlaveCreate), METH_VARARGS, "\brief doc…" },
...
}
似乎无法读取EMR中的gz文件。但是,如果输入文件是csv,则它正在读取数据而没有任何问题。
我的代码:
Exception in thread "main" org.apache.spark.SparkException: Application application_1543327349114_0001 finished with failed status
我正在使用spark 2.3.0和Hadoop 2.7.3
请在这个问题上帮助我,如何在EMR中读取val df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("s3a://test-system/Samplefile.csv")
df.createOrReplaceTempView("data")
val res = spark.sql("select count(*),id,geo_id from data group by id,geo_id")
res.coalesce(1).write.format("csv").option("header","true").mode("Overwrite")
.save("s3a://test-system/Output/Sampleoutput")
文件?
stderr日志:
*.csv.gz