Apache Beam Python SDK-从GCS读取GZIP压缩的Parquet文件

时间:2019-11-25 11:59:20

标签: python google-cloud-storage apache-beam apache-beam-io

我想使用适用于Apache Beam的Python SDK将GZIP压缩的Parquet文件从GCS读取到BigQuery中。但是apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码source code,压缩类型被硬编码为UNCOMPRESSED

是否有技巧来读取压缩的Parquet文件而无需事先在GCS中解压缩文件?如果那是唯一的方法,是否可以直接在GCS中解压缩文件?

1 个答案:

答案 0 :(得分:1)

我正在调查此问题,发现有关您的问题的issue tracker。如您所见,当前无法在不移出存储桶的情况下直接解压缩GZIP文件。

如果您想获取此请求的更新,则可以对其加注星标,以在该请求被更新或主管团队发布更多信息时进行一些更新。