我在写入Google存储空间时,火花作业正在创建的每个零件文件都收到此警告:
17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698
17/08/01 11:31:47 WARN com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Possible stale CacheEntry; failed to fetch item info for: gs://temp_bucket/output/part-09698 - removing from cache
火花工作有10个阶段,这个警告在9个阶段之后。因为spark工作正在创建~11500个零件文件。每个~11500部件文件都会出现此警告。由于这个警告,我的火花工作额外运行了15分钟,因为我正在运行大约80个这样的工作。我失去了很多时间并且花费了很多。
有没有办法抑制此警告?
答案 0 :(得分:1)
最近的更改使得完全禁用强制列表一致性变得安全;预计未来版本将逐步逐步淘汰。在作业属性中尝试以下操作以禁用CacheSupplementedGoogleCloudStorage:
--properties spark.hadoop.fs.gs.metadata.cache.enable=false
或者,如果您要在群集属性中创建新的Dataproc群集:
--properties core:fs.gs.metadata.cache.enable=false