数据以拼花格式保存在Hive中并且尝试从中读取时 Spark,我遇到了一个错误:
java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainBinaryDictionary
at org.apache.parquet.column.Dictionary.decodeToFloat(Dictionary.java:56)
我创建了一个配置单元外部表,并将其链接到hdfs中的镶木地板数据。 使用的命令:
create external table tab1(col1 type , col2 type , col3 type ) STORED AS PARQUET LOCATION 'hdfs://someloc.parquet';
加载数据后,我使用了spark dataframe writer API将数据写入拼花地板。
Dataset<Row> df = session.read().option("header", "true").csv(csvInput);
df.write().mode("append").parquet(parquetOutput);
现在,我正在尝试使用spark sql查询tab1
spark.sql("SELECT * FROM TAB1").show()
我收到上述错误