我有一个非常大的字典大小~200 GB,我需要经常查询我的算法。为了获得快速的结果,我想把它放在内存中,这是可能的,因为幸运的是我有一个500GB的RAM。
但是,我的主要问题是我只想在内存中加载一次,然后让其他进程查询同一个字典,而不是每次创建新进程或迭代我的代码时都要再次加载它。
所以,我想要这样的事情:
脚本1:
# Load dictionary in memory
def load(data_dir):
dictionary = load_from_dir(data_dir) ...
脚本2:
# Connect to loaded dictionary (already put in memory by script 1)
def use_dictionary(my_query):
query_loaded_dictionary(my_query)
实现这一目标的最佳方法是什么?我考虑过一个休息API,但是我想知道如果通过REST请求将首先将字典放入内存中,从而削弱了我获得的所有速度。
有什么建议吗?