有一个称为性别的hdfs实木复合地板数据帧。
gender = spark.read.parquet('/user/path/grass_date=2019-03-06')
阅读实木复合地板后,我们得到了架构:
DataFrame[userid: bigint, gender_scores: double, predicted_gender: bigint]
最后,我们使用以下命令创建配置单元表:
CREATE TABLE gender_history
USING org.apache.spark.sql.parquet
OPTIONS (path='/user/path/grass_date=2019-03-06')
某些人确实选择了*命令,该命令将引发以下异常:
文件中的gender_scores hdfs://scluster/user/path/grass_date=2019-03-06/part-00008-c961a5f3-4126-45bf-8487-38b07377dbcb-c000.snappy.parquet 被声明为 real 类型,但是镶木地板文件声明的列类型为 DOUBLE 。
我想知道导致此问题的原因以及如何解决。谢谢大家!