蜂巢:插入每个零件文件的覆盖目录限制大小

时间:2018-07-29 12:51:14

标签: hive hiveql

我正在处理以下Hive查询的输出:

INSERT OVERWRITE DIRECTORY '/main_directory/table' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT * FROM table;
在Python中一次按顺序一次一个零件文件。但是,某些文件太大,Python脚本因内存错误而失败。 因此,我需要将每个输出零件文件的大小限制为〜300 MB或〜250K行。

0 个答案:

没有答案