我在Spark作业中使用BigQueryInputFormat,将数据直接从Bigquery加载到RDD中。此文档说明您应该使用以下命令清除临时文件:
BigQueryInputFormat.cleanupJob(作业)
然而,从Spark工作开始,当“工作”是一个hadoop工作时,我怎么能这样做呢?
感谢, 路加
答案 0 :(得分:2)
想出来,你可以设置一个火花作业独有的自定义临时路径,并在作业结束时删除该路径:
hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")
...
FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)