我现在正在使用来自预处理项目信息的300个浮动功能。这些项目由UUID(即字符串)标识。当前文件大小约为200MB。到目前为止,我已将它们存储为Pickled numpy
数组。有时我需要将项目的UUID映射到Numpy行。为此,我使用字典(存储为json)将UUID映射到numpy
数组中的行。
我很想使用Pandas并将该字典替换为Pandas索引。我还发现了HF5文件格式,但我想知道何时使用它们。
我使用数组的一部分来提供基于scikit-Learn
的算法,然后对其余算法进行分类。
答案 0 :(得分:3)
存储酸洗的numpy数组确实不是最佳方法。相反,你可以使用,
numpy.savez
以二进制格式保存numpy数组字典HDF5是存储科学数据的首选格式,其中包括
尽管选择输出文件格式来存储200MB的小数据集并不是那么重要,而是更方便。