BM-25搜索算法在python中的实现

时间:2015-09-12 09:10:19

标签: python algorithm

我在python中设计一个基于okapi bm25的搜索引擎我应该用什么来存储页面数据(相关性等)和tf,idf以便快速访问?对于可扩展的设计,python架子是否足够好?

感谢。

1 个答案:

答案 0 :(得分:1)

我建议您查看wiredtiger强大的keyvalue商店,比leveldb或bsddb(货架模块使用bsddb)更快,以构建您的存储。他们是不同的模式,你可以看看有关leveldb或bsddb的问题的stackoverflow。

如果您不熟悉键/值存储,我建议您使用leveldbplyvel,这是一个良好的开端,但不会像wiretiger一样扩展。