从Spark读取配置单元外部表时会出现额外的标题吗?

时间:2019-04-24 12:00:24

标签: hive pyspark cloudera-cdh

我在蜂巢中创建一个外部表,然后将csv放在外部表指向的HDFS位置上。在检入Hue时,表输出的格式正确,但是当我尝试使用spark读取同一张表时,数据帧的第一行与标头相同,即标头重复了两次。

cdh版本:Hive 1.1.0-cdh5.13.1

DDL

CREATE EXTERNAL TABLE `dummy`(
  name string,
  age string
)
ROW FORMAT SERDE    
  'org.apache.hadoop.hive.serde2.OpenCSVSerde'  
WITH SERDEPROPERTIES (  
  'quoteChar'='\"',     
  'separatorChar'=',')  
STORED AS INPUTFORMAT   
  'org.apache.hadoop.mapred.TextInputFormat'    
OUTPUTFORMAT    
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
LOCATION    
  '/tmp/dummy'  
TBLPROPERTIES ( 
  'COLUMN_STATS_ACCURATE'='false',  
  'numFiles'='1',   
  'numRows'='-1',   
  'rawDataSize'='-1',   
  'skip.header.line.count'='1')

csv

name,age
abc,10

色相输出

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

火花输出

sparkSession.table('dummy')。show()

+----++----+
|name| age | 
+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Spark的预期输出

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

0 个答案:

没有答案