临时表上的多个SQL失败

时间:2017-06-30 02:53:58

标签: apache-spark apache-spark-sql spark-dataframe

Spark Version: 1.6.2.   

我注册了一个临时表,其数据源是HDFS,并对其进行两次查询。

然后作业因此错误而失败:

  

错误ApplicationMaster:用户类引发异常:
  java.io.IOException:不是文件:hdfs:// my_server:8020/2017/01/01
  java.io.IOException:不是文件:hdfs:// my_server:8020/2017/01/01           在org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:322)           在org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199)           在org.apache.spark.rdd.RDD $$ anonfun $ partitions $ 2.apply(RDD.scala:242)           在org.apache.spark.rdd.RDD $$ anonfun $ partitions $ 2.apply(RDD.scala:240)           在scala.Option.getOrElse(Option.scala:120)           在org.apache.spark.rdd.RDD.partitions(RDD.scala:240)

如果只运行一个查询,那么棘手的部分是该作业成功 我是否以错误的方式使用Spark SQL,还是这样?

这就是我的代码:

val rdd = sc.textFile("hdfs://my_server:8020/2017/*/*/*")
val table = sqlc.read.json(rdd).cache()

table.registerTempTable("my_table")

sql("""
    | SELECT contentsId,
    |   SUM(CASE WHEN gender = 'M' then 1 else 0 end)
    | FROM my_table
    | GROUP BY contentsId
  """.stripMargin)
  .write.format("com.databricks.spark.csv")
  .save("hdfs://my_server:8020/gender.csv")

sql("""
    | SELECT contentsId,
    |   SUM(CASE WHEN age > 0 AND age < 20 then 1 else 0 end),
    |   SUM(CASE WHEN age >= 20 AND age < 30 then 1 else 0 end)
    | FROM my_table
    | GROUP BY contentsId
  """.stripMargin)
  .write.format("com.databricks.spark.csv")
  .save("hdfs://my_server:8020/age.csv")

提前致谢!

1 个答案:

答案 0 :(得分:1)

我认为你可以尝试仅为这样的文件应用过滤器。

val filesRDD = rdd.filter{path => (new java.io.File(path).isFile)}

这将删除RDD中包含的所有目录 并且第二次保存DataFrame使用此

sql("""
    | SELECT contentsId,
    |   SUM(CASE WHEN age > 0 AND age < 20 then 1 else 0 end),
    |   SUM(CASE WHEN age >= 20 AND age < 30 then 1 else 0 end)
    | FROM my_table
    | GROUP BY contentsId
  """.stripMargin)
  .write.format("com.databricks.spark.csv")
  .mode("append")
  .save("hdfs://my_server:8020/gender.csv")

如果存储值相同或尝试将Second DataFrame存储到某个不同的文件