在HDF5中存储分层数据的理想方法

时间:2012-08-03 15:53:04

标签: storage hdf5 bigdata pycassa

StackOverflow的Hello Oracles,

我第一次设法询问有关堆栈溢出的问题,所以请随意向我扔掉卷心菜。 (或纠正我应该问我问题的方式)

我有这个问题。我正在使用HDF5来存储大量的cookie信息。

我的数据按以下方式构建:

CookieID - >活动 - > Key_value对

每个cookieID都有多个事件。但每个事件只有一个key_value对。

我想知道我应该在HDF5中存储的最佳方式。

目前,我将每个cookie存储为HDF5中组内的单独表格,使用cookieID作为表格的名称。不幸的是,对于我来说,拥有10,000,000个cookie,HDF5(或特别是PyTables)并不赞成这种类型的存储。

特别抛出此错误:

  

/ CookieData``超出了建议的最大子女数(16384)

我想知道您是否可以推荐存储此信息的最佳方式。

我应该创建一个平台吗?我应该保留这种方法吗?还有什么我可以做的吗?

帮助表示赞赏。谢谢你的阅读。

1 个答案:

答案 0 :(得分:2)

后来几个小时的研究,我发现我试图做的事情是绝对不可能的。

The following link提供了使用HDF5与可变长度嵌套子项的不可能性的详细信息。

我决定暂时使用平面文件,并希望这比数据库存储更有效。最后一个平面文件的问题是我必须在文件中复制值,否则不应该存在。

如果其他人有任何更好的想法,我们将不胜感激。