我在python中设计一个基于okapi bm25的搜索引擎我应该用什么来存储页面数据(相关性等)和tf,idf以便快速访问?对于可扩展的设计,python架子是否足够好?
感谢。
答案 0 :(得分:1)
我建议您查看wiredtiger强大的keyvalue商店,比leveldb或bsddb(货架模块使用bsddb)更快,以构建您的存储。他们是不同的模式,你可以看看有关leveldb或bsddb的问题的stackoverflow。
如果您不熟悉键/值存储,我建议您使用leveldb和plyvel,这是一个良好的开端,但不会像wiretiger一样扩展。