我以非常简单的格式获得了大约12GB的制表符分隔数据:
mainIdentifier, altIdentifierType, altIdentifierText
MainIdentifier不是唯一的行标识符 - 只有3列的整个组合是唯一的。我的主要用例是查找来自mainIdentifier
或来自两种不同类型的替代标识符的相应条目。
从我可以收集的内容来看,我需要为每个入口方向构建一个查找索引以使其快速。但是,鉴于任务的简单性,我并不需要指向记录的索引 - 索引本身就是答案。
我在python中尝试过sqlite3,但正如预期的那样,结果并不像我想的那么快。我现在正在考虑存储两个列表并以二进制搜索方式移动,但是,我不想重新发明轮子 - 现有解决方案有什么方法可以解决这个问题?
另外,我打算运行这个启用REST的服务,因此查找表不能以任何方式存储在内存中。