我有一个这个结构的大(几个Gigs)嵌套字典:
{
string1: {string1_1: int1_1, string1_2: int1_2, ...},
string2: {string2_1: int2_1, string2_2: int2_2, ...},
...
}
它是一种在大文本语料库中共同出现的词,因此内部词汇中的键数量会有所不同。
我正在尝试找到将此结构保存到硬盘驱动器以便重复使用的最快方法。 Pickle / cpickle.dump很慢。 Msgpack.pack更好,但是从原始数据重新计算整个dict比转储加载它更快。
有没有人有序列化如此庞大的词汇的经验?任何提示/技巧和图书馆表示赞赏。感谢。