我完全是初学者,现在正在尝试实现一个简单的search engine in python
。
我使用tokenizer
中使用过的函数来完成NLTK
。但我现在对存储tokenizer的结果很困惑。我需要保留它们以进一步索引。
这样做的常用方法是什么?我应该使用什么样的数据库?
答案 0 :(得分:1)
Introduction to Information Retrieval专门用了几章来指导建筑和储存; Baeza-Yates和Ribeiro-Neto的Modern Information Retrieval也是如此。
对于一个简单的业余爱好/学习项目,SQLite就足够了索引存储。你需要一个包含(term,document-id,frequency)三元组以计算tf的表和一个存储(term,df)对的表,两者都带有条件索引;这足以计算tf-idf。