情况是这样的:
spark
来读取s3-bucket
,其中某些对象(parquet
)已转换为glacier
存储类。 我并不想读取这些对象,但是使用这些类型的存储桶(https://jira.apache.org/jira/browse/SPARK-21797)的spark
出现错误。有一种解决方法可以“解决”此问题:https://jira.apache.org/jira/browse/SPARK-21797?focusedCommentId=16140408&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16140408。但是查看代码https://github.com/apache/spark/pull/16474/files,仍然会进行呼叫,并且只会跳过那些引发IOException
的文件。有没有更好的方法来配置Spark
以仅在Standard
上加载s3-bucket
个对象??
答案 0 :(得分:0)
当对象冰化时,我不认为S3的LIST调用标志-因此在查询计划/分区期间无法进行过滤。在此过程中,为每个对象调用HEAD将会非常昂贵。