通过uber / petastorm将ndarrays存储到Parquet中吗?

时间:2019-02-14 21:48:01

标签: python arrays matrix parquet petastorm

是否可以通过uber/petastorm将N维数组存储到Parquet中?

1 个答案:

答案 0 :(得分:1)

是的。 Petastorm在标准Apache Parquet格式的顶部提供了一个自定义的编解码器层和一个模式扩展。 n维数组/张量将序列化为二进制blob字段。从用户的角度来看,它们看起来像本机类型,取决于您使用的环境(纯Python / pyspark:numpy / array,Tensorflow中的tf.Tensor或PyTorch中的Torch Tensors)。

这里有一些易于遵循的示例:https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset