将分区的镶木地板文件读入Spark会导致字段的顺序不正确

时间:2015-02-26 05:18:37

标签: hive apache-spark parquet

对于带

的表格
create table mytable (

  ..
) 
    partitioned by (my_part_column String)

我们正在执行hive sql,如下所示:

   from pyspark.sql import HiveContext
   hc = HiveContext(sc)
   data = hc.sql("select * from my_table limit 10")

回读的值显示“my_part_columns”为每行的FIRST项而不是最后一行。

1 个答案:

答案 0 :(得分:0)

原来这是Spark 1.3.0和1.2.1

中修复的已知错误

https://issues.apache.org/jira/browse/SPARK-5049