Question

我在Spark作业中使用BigQueryInputFormat，将数据直接从Bigquery加载到RDD中。此文档说明您应该使用以下命令清除临时文件：

BigQueryInputFormat.cleanupJob（作业）

然而，从Spark工作开始，当“工作”是一个hadoop工作时，我怎么能这样做呢？

感谢，路加

Answer 1

想出来，你可以设置一个火花作业独有的自定义临时路径，并在作业结束时删除该路径：

hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")

...

FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)

清理BigQueryInputFormat临时文件

1 个答案: