解压缩Azure Databricks中的活泼的镶木地板文件

时间:2020-05-14 12:36:25

标签: parquet azure-databricks snappy

我在Azure Data Lake的文件夹中有一堆活泼的镶木地板文件 有没有人有我可以用来将活泼的镶木地板文件解压缩到使用Azure Databricks镶木地板的代码。

谢谢

1 个答案:

答案 0 :(得分:0)

压缩Parquet文件是该格式的内部。您不能像立即压缩的普通文件那样简单地解压缩它们。在Parquet中,每个列块(甚至实际上是它的较小部分)都被单独压缩。因此,要进行解压缩,您需要使用spark.read.parquet读入并将它们写为具有不同Parquet设置的全新文件。

请注意,在大多数设置中,不使用压缩实际上并不有用。 Snappy是一种CPU高效的格式,它使用的最短CPU时间与节省时间在将文件传输到磁盘或通过网络传输方面所带来的好处形成了鲜明的对比。