清理BigQueryInputFormat临时文件

时间:2015-10-27 22:03:15

标签: google-cloud-dataproc

我在Spark作业中使用BigQueryInputFormat,将数据直接从Bigquery加载到RDD中。此文档说明您应该使用以下命令清除临时文件:

BigQueryInputFormat.cleanupJob(作业)

然而,从Spark工作开始,当“工作”是一个hadoop工作时,我怎么能这样做呢?

感谢, 路加

1 个答案:

答案 0 :(得分:2)

想出来,你可以设置一个火花作业独有的自定义临时路径,并在作业结束时删除该路径:

hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")

...

FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)