python中的布尔检索模型

时间:2013-10-04 11:08:06

标签: python python-2.7 nlp information-retrieval

我正在尝试使用python中的布尔模型创建一个查询 - 答案系统。

我尝试使用nltk,但似乎它没有布尔模型的函数

我有3个文件,我希望看到哪些文件与数字值更相似。

例如doc1 2.987,doc2 0.876和doc3 2.156因此doc1和doc2相似

我做了什么:

  • 标记化文件
  • 删除了重复的字词
  • 删除了停用词

我现在拥有的是每个文件的独特单词列表(基本上是名词,动词,副词和形容词)

现在下一步是什么?

1 个答案:

答案 0 :(得分:2)

删除停用词可能很有用。您可以查找称为余弦相似度的术语。基本上它可以用于机器学习。它可用于查找文档之间的相似性。你可以在python中找到Scikit。如果您想使用它是您的选择。但是这里有一些教程解释了如何计算这个余弦相似度。

part-Ipart-IIpart-III

你也可以看看这个问题

Python: tf-idf-cosine: to find document similarity

我希望它有所帮助:)