在将文件直接写入每个零件文件的Google存储空间时,在Google dataproc中的pyspark作业中发出警告

时间:2017-08-01 13:02:53

标签: google-cloud-dataproc

我在写入Google存储空间时,火花作业正在创建的每个零件文件都收到此警告:

17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698
17/08/01 11:31:47 WARN com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Possible stale CacheEntry; failed to fetch item info for: gs://temp_bucket/output/part-09698 - removing from cache

火花工作有10个阶段,这个警告在9个阶段之后。因为spark工作正在创建~11500个零件文件。每个~11500部件文件都会出现此警告。由于这个警告,我的火花工作额外运行了15分钟,因为我正在运行大约80个这样的工作。我失去了很多时间并且花费了很多。

有没有办法抑制此警告?

1 个答案:

答案 0 :(得分:1)

最近的更改使得完全禁用强制列表一致性变得安全;预计未来版本将逐步逐步淘汰。在作业属性中尝试以下操作以禁用CacheSupplementedGoogleCloudStorage:

--properties spark.hadoop.fs.gs.metadata.cache.enable=false

或者,如果您要在群集属性中创建新的Dataproc群集:

--properties core:fs.gs.metadata.cache.enable=false