我正在尝试重现Netflix产品Vectorflow上最近article中提到的设置。
他们在Hive中使用镶木地板文件作为数据来源。我想用scipy的稀疏矩阵生成一些假数据。如何将这样的矩阵保存到镶木地板文件中?
答案 0 :(得分:1)
您可以使用Apache Arrow(Python包名称为pyarrow
)来编写Parquet文件:https://arrow.apache.org/docs/python/parquet.html
有一些便利函数来存储pandas.DataFrames
,对于scipy稀疏矩阵,你可以使用它们中的一些但需要稍微调整一下。
使用Apache Parquet的重要一点是,它是一种类似于表格的列式格式,即它需要一个数组字典。你必须把这个矩阵带到这个表格中。这将取决于Vectorflow如何期望数据。