如何使用SPARKQL

时间:2017-05-26 10:24:23

标签: sql hadoop apache-spark hive hdfs

我正在尝试做一个简单的INSERT OVERWRITE TABLE <TABLE1> SELECT * FROM <TABLE2>  问题是表2位于HDFS的特定目录中,数据分散到8个不同的文件夹中。

每个文件夹都包含整个数据的分区,当我对主目录进行查询时,它会显示以下错误:

INFO FileInputFormat: Total input paths to process : 8

如何使用查询访问所有数据?

谢谢

0 个答案:

没有答案