搜索查询的TF * IDF

时间:2012-08-11 02:44:50

标签: python nlp nltk scikit-learn tf-idf

好的,所以我一直关注TF * IDF上的这两篇文章,但我很困惑:http://css.dzone.com/articles/machine-learning-text-feature

基本上,我想创建一个包含多个文档搜索的搜索查询。我想使用scikit-learn工具包以及Python的NLTK库

问题在于我没有看到两个TF * IDF向量来自哪里。我需要一个搜索查询和多个文档来搜索。我想我会针对每个查询计算每个文档的TF * IDF分数,并找出它们之间的余弦相似度,然后通过按降序对分数进行排序来对它们进行排名。但是,代码似乎没有提出正确的向量。

每当我将查询减少到只有一个搜索时,它会返回一个巨大的0列表,这真的很奇怪。

以下是代码:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords

train_set = ("The sky is blue.", "The sun is bright.") #Documents
test_set = ("The sun in the sky is bright.") #Query
stopWords = stopwords.words('english')

vectorizer = CountVectorizer(stop_words = stopWords)
transformer = TfidfTransformer()

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray

transformer.fit(trainVectorizerArray)
print transformer.transform(trainVectorizerArray).toarray()

transformer.fit(testVectorizerArray)

tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()

1 个答案:

答案 0 :(得分:14)

您将train_settest_set定义为元组,但我认为它们应该是列表:

train_set = ["The sky is blue.", "The sun is bright."] #Documents
test_set = ["The sun in the sky is bright."] #Query

使用此代码似乎运行良好。