StackOverflow的Hello Oracles,
我第一次设法询问有关堆栈溢出的问题,所以请随意向我扔掉卷心菜。 (或纠正我应该问我问题的方式)
我有这个问题。我正在使用HDF5来存储大量的cookie信息。
我的数据按以下方式构建:
CookieID - >活动 - > Key_value对
每个cookieID都有多个事件。但每个事件只有一个key_value对。
我想知道我应该在HDF5中存储的最佳方式。
目前,我将每个cookie存储为HDF5中组内的单独表格,使用cookieID作为表格的名称。不幸的是,对于我来说,拥有10,000,000个cookie,HDF5(或特别是PyTables)并不赞成这种类型的存储。
特别抛出此错误:
/ CookieData``超出了建议的最大子女数(16384)
我想知道您是否可以推荐存储此信息的最佳方式。
我应该创建一个平台吗?我应该保留这种方法吗?还有什么我可以做的吗?
帮助表示赞赏。谢谢你的阅读。
答案 0 :(得分:2)
后来几个小时的研究,我发现我试图做的事情是绝对不可能的。
The following link提供了使用HDF5与可变长度嵌套子项的不可能性的详细信息。
我决定暂时使用平面文件,并希望这比数据库存储更有效。最后一个平面文件的问题是我必须在文件中复制值,否则不应该存在。
如果其他人有任何更好的想法,我们将不胜感激。