apache-spark - 配置单元表选择sql列类型异常

有一个称为性别的hdfs实木复合地板数据帧。

gender = spark.read.parquet('/user/path/grass_date=2019-03-06')

阅读实木复合地板后，我们得到了架构：

DataFrame[userid: bigint, gender_scores: double, predicted_gender: bigint]

最后，我们使用以下命令创建配置单元表：

CREATE TABLE gender_history
 USING org.apache.spark.sql.parquet
 OPTIONS (path='/user/path/grass_date=2019-03-06')

某些人确实选择了*命令，该命令将引发以下异常：

文件中的
gender_scores hdfs：//scluster/user/path/grass_date=2019-03-06/part-00008-c961a5f3-4126-45bf-8487-38b07377dbcb-c000.snappy.parquet 被声明为 real 类型，但是镶木地板文件声明的列类型为 DOUBLE 。

我想知道导致此问题的原因以及如何解决。谢谢大家！

配置单元表选择sql列类型异常

0 个答案: