应用错误收集

如何存储标记化的结果以进一步索引？

时间：2012-10-08 14:16:46

标签： python indexing search-engine information-retrieval

我完全是初学者，现在正在尝试实现一个简单的search engine in python。

我使用tokenizer中使用过的函数来完成NLTK。但我现在对存储tokenizer的结果很困惑。我需要保留它们以进一步索引。

这样做的常用方法是什么？我应该使用什么样的数据库？

1 个答案:

答案 0 :(得分：1)

Manning，Raghavan和Schütze的

Introduction to Information Retrieval专门用了几章来指导建筑和储存; Baeza-Yates和Ribeiro-Neto的Modern Information Retrieval也是如此。

对于一个简单的业余爱好/学习项目，SQLite就足够了索引存储。你需要一个包含（term，document-id，frequency）三元组以计算tf的表和一个存储（term，df）对的表，两者都带有条件索引;这足以计算tf-idf。