使用配置单元查询进行数据解析

时间:2017-09-30 09:01:12

标签: azure hive hdinsight azure-data-factory

我正在通过Azure数据工厂构建管道。输入数据集是带有列分隔符的csv文件,输出数据集也是csv文件列分隔符。通过扩展名为.hql的文件中的hive查询,管道设计为具有HDinsight活动。配置单元查询如下

set hive.exec.dynamic.partition.mode=nonstrict;

DROP TABLE IF EXISTS Table1; 
CREATE EXTERNAL TABLE Table1 (
  Number string, 
  Name string, 
  Address string
)
ROW FORMAT DELIMITED FIELDS  TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE 
LOCATION '/your/folder/location'

SELECT * FROM Table1;

以下是文件格式

Number,Name,Address 
1,xyz,No 152,Chennai
2,abc,7th street,Chennai
3,wer,Chennai,Tamil Nadu

如何使用输出数据集中的数据解析列标题?

1 个答案:

答案 0 :(得分:0)

根据我的理解,您的问题与csv文件有关。您将csv文件放在表位置,它由标题组成。如果我的理解是正确的,请在您的表ddl中尝试下面的属性。我希望这会对你有所帮助。

tblproperties ("skip.header.line.count"="1");

谢谢, 马努