我想使用适用于Apache Beam的Python SDK将GZIP压缩的Parquet文件从GCS读取到BigQuery中。但是apache_beam.io.parquetio.ReadFromParquet
方法似乎不支持从压缩文件中读取。根据源代码source code,压缩类型被硬编码为UNCOMPRESSED
。
是否有技巧来读取压缩的Parquet文件而无需事先在GCS中解压缩文件?如果那是唯一的方法,是否可以直接在GCS中解压缩文件?
答案 0 :(得分:1)
我正在调查此问题,发现有关您的问题的issue tracker。如您所见,当前无法在不移出存储桶的情况下直接解压缩GZIP文件。
如果您想获取此请求的更新,则可以对其加注星标,以在该请求被更新或主管团队发布更多信息时进行一些更新。