Python - 文档聚类

时间:2017-05-31 07:21:31

标签: python cluster-analysis document

我是Python的新手,并检查一个示例程序,根据关键词对文档进行聚类。在此找到程序clustering并将此程序转换为python。

运行转换为python的程序时获取错误。通过添加库的import语句修复了一些其他错误。

或者,如果你建议我提供多个文档和群集的示例程序,那也很好。

下面给出了代码获取错误的部分:

from sklearn.feature_extraction.text import TfidfVectorizer
from IPython import get_ipython
ipython = get_ipython()
print(synopses[20])
x=TfidfVectorizer()

tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
                                 min_df=0.2, stop_words='english',
                                 use_idf=True, tokenizer=tokenize_and_stem, ngram_range=(1,3))
get_ipython().magic('time tfidf_matrix = tfidf_vectorizer.fit_transform(synopses)')
print(tfidf_matrix.shape)

谢谢, 时调

0 个答案:

没有答案