删除正在运行的Spark JOB的Hive Staging Directory

时间:2018-05-07 14:12:48

标签: apache-spark hive hadoop2

如果正在运行的Spark JOB,另一个进程会删除.hiveStaging目录会怎样?

  1. 是否会导致JOB失败
  2. 数据丢失但JOB成功
  3. 不是数据丢失和JOB成功
  4. 或者,是否有任何HDFS锁会导致目录不被删除

    由于

1 个答案:

答案 0 :(得分:0)

Hive在运行Hive客户端的计算机和默认HDFS实例上都使用临时文件夹。这些文件夹用于存储每个查询的临时/中间数据集,并且通常在查询完成时由hive客户端清理。

一旦查询执行完成,数据就会移动到输出HDFS位置。

当您删除.hiveStaging目录时,您的配置单元查询/驱动程序代码将失败并显示java.io.IOException