我可以将hdf5用于大量文本数据吗?

时间:2014-11-18 13:58:42

标签: file data-mining hdf5

假设我将以编程方式从互联网上获取数十万个开放存取的书籍作为文本字符串。我的目的是对它们做一些分析(使用熊猫)。我已经在我的应用程序的某些部分使用mongodb,但我认为很容易将它放在pendrive中并将其转移到另一台机器上。 Sqlite是可移植的,但我讨厌编写sql。我看到的其他选项只是将它作为单独的文本文件或称为hdf5的文件系统。

hdf5对这种纯文本数据有用吗?如果没有,还有哪些其他选择?

2 个答案:

答案 0 :(得分:6)

是的,你可以,但如果我是你,我会使用单独的文本文件并压缩包含目录。原因如下:

大数字(HDF5的面包和黄油)可以有效地以二进制格式存储,但没有二进制文本,因此使用HDF5在空间方面没有优势。是的,您可以在HDF5文件中启用压缩,但您可以轻松压缩文本文件。

现在,文本文件和zip文件都非常普遍,因此在可移植性方面没有任何好处。

以下是使用HDF5无法做到的微不足道的一个示例:删除数据集并回收其空间。

最后,这是您项目的另一个依赖项,而文本文件是以任何编程语言免费提供的。

答案 1 :(得分:1)

看起来像是,是的。

来自HDF组网站及其对HDF5的描述:" HDF5是用于存储和管理数据的数据模型,库和文件格式。它支持无限种类的数据类型,专为灵活高效的I / O以及大容量和复杂数据而设计。"

此处提供更多信息:http://www.hdfgroup.org/HDF5/

祝你好运!