如何存储标记化的结果以进一步索引?

时间:2012-10-08 14:16:46

标签: python indexing search-engine information-retrieval

我完全是初学者,现在正在尝试实现一个简单的search engine in python

我使用tokenizer中使用过的函数来完成NLTK。但我现在对存储tokenizer的结果很困惑。我需要保留它们以进一步索引。

这样做的常用方法是什么?我应该使用什么样的数据库?

1 个答案:

答案 0 :(得分:1)

Manning,Raghavan和Schütze的

Introduction to Information Retrieval专门用了几章来指导建筑和储存; Baeza-Yates和Ribeiro-Neto的Modern Information Retrieval也是如此。

对于一个简单的业余爱好/学习项目,SQLite就足够了索引存储。你需要一个包含(term,document-id,frequency)三元组以计算tf的表和一个存储(term,df)对的表,两者都带有条件索引;这足以计算tf-idf。