Question

我正在使用数据源在HDFS中创建一个分区的镶木地板文件。

数据源如下所示：

MyInterface

我使用以下命令创建分区（我在spark shell中完成）：

scala> sqlContext.sql("select * from parquetFile").show()
+--------+-----------------+
|area_tag|              vin|
+--------+-----------------+
|       0|LSKG5GC19BA210794|
|       0|LSKG5GC15BA210372|
|       0|LSKG5GC18BA210107|
|       0|LSKG4GC16BA211971|
|       0|LSKG4GC19BA210233|
|       0|LSKG5GC17BA210017|
|       0|LSKG4GC19BA211785|
|       0|LSKG4GC15BA210004|
|       0|LSKG4GC12BA211739|
|       0|LSKG4GC18BA210238|
|       0|LSKG4GC13BA210261|
|       0|LSKG5GC16BA210106|
|       0|LSKG4GC1XBA210287|
|       0|LSKG4GC10BA210265|
|       0|LSKG5GC10CA210118|
|       0|LSKG5GC16BA212289|
|       0|LSKG5GC1XBA211016|
|       0|LSKG5GC15CA210194|
|       0|LSKG5GC12CA210119|
|       0|LSKG4GC19BA211379|
+--------+-----------------+

当我通过从分区表加载来打印数据时，它显示：

scala>val df1 = sqlContext.sql("select * from parquetFile  where area_tag=0 ")
scala>df1.write.parquet("/tmp/test_table3/area_tag=0")
scala>val p1 = sqlContext.read.parquet("/tmp/test_table3")

分区列丢失了。这个专栏发生了什么，这是一个错误吗？

分区表中缺少spark分区列

0 个答案: