我使用以下代码以csv / tsv格式将表格从配置单元导出到hdfs。
INSERT OVERWRITE DIRECTORY '/user/xyz/dem_data/science_data'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS TEXTFILE
SELECT *
FROM science_data;
当我在hdfs中查看复制的文件时,我看到很多这样的字符
??=%??0nother episod?/aAj%?is ?a???$of J horse!de9?amA?se0(
我不确定这是怎么回事。 我是否需要对此进行某种编码才能获得干净的文本。实际文件具有纯文本。
答案 0 :(得分:0)
请使用以下命令尝试使用本地目录:
INSERT OVERWRITE LOCAL DIRECTORY '/home/cloudera/Desktop/xyz/science_data' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE select * from table_name;