将制表符分隔的数据库放入数据集的正确方法是什么?

时间:2013-06-17 21:58:50

标签: hdf5

该文件有26列和非常多的行。使用HDF5的正确方法是一次读取一行文件,将内容读入1x26内存空间,然后将数据集扩展1x26并将内存空间内容复制到数据集新添加的行中吗?

我不确定这会有多高效,或者即使这是正确的做法,我对此也很陌生。

感谢。

1 个答案:

答案 0 :(得分:1)

答案很大程度上取决于您的确切用例。按照你的建议去做它当然不是错误,但有可能有更有效/更快的方法。通常,您需要调整块的大小以便如何读取/写入数据。

如果您提前知道大致行数,那么使用相对较大的压缩块可能要快得多。例如,如果您知道可能有1000到2000行之间的某个行,那么使用100行的块并启用压缩。这将导致IO操作比一次一行少得多。

另一方面,如果数据集可能会及时增长,一次一行,那么您的方式可能更好。

另一个考虑因素是你将如何阅读数据。如果你一次只读一行,那么1x26块将是一个好主意。但是,如果您要一次只读取整个数据集,但只使用更大的块。