配置单元表选择sql列类型异常

时间:2019-03-11 10:35:16

标签: apache-spark hive pyspark

有一个称为性别的hdfs实木复合地板数据帧。

gender = spark.read.parquet('/user/path/grass_date=2019-03-06')

阅读实木复合地板后,我们得到了架构:

DataFrame[userid: bigint, gender_scores: double, predicted_gender: bigint]

最后,我们使用以下命令创建配置单元表:

CREATE TABLE gender_history
 USING org.apache.spark.sql.parquet
 OPTIONS (path='/user/path/grass_date=2019-03-06')

某些人确实选择了*命令,该命令将引发以下异常:

  文件中的

gender_scores   hdfs://scluster/user/path/grass_date=2019-03-06/part-00008-c961a5f3-4126-45bf-8487-38b07377dbcb-c000.snappy.parquet   被声明为 real 类型,但是镶木地板文件声明的列类型为    DOUBLE

我想知道导致此问题的原因以及如何解决。谢谢大家!

0 个答案:

没有答案