Scikit-learn NMF删除重复的单词

时间:2017-08-09 08:22:01

标签: python machine-learning scikit-learn topic-modeling nmf

我正在使用scikit-learn的nmf算法从某些博客中提取趋势词。例如,我有“游戏权力”(尽管“of of”被作为禁止词而被删除),但我也有“游戏”和“权力”。我有“马库斯哈钦斯”(好),但我也有“马库斯”和“哈钦斯”这是不好的。我该如何防止重复?这就是我所拥有的(变量“文档”是包含来自博客的帖子文本的列表):

   tfidf_vectorizer = TfidfVectorizer(max_features=no_features, 
   stop_words='english', ngram_range=(1,3), min_df=3, max_df=0.95)
   tfidf = tfidf_vectorizer.fit_transform(documents)
   tfidf_feature_names = tfidf_vectorizer.get_feature_names()

   # no of topics to display
   no_topics = 5

   # Run NMF
   nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, 
   init='nndsvd').fit(tfidf)

   # no of words to display for each topic
   no_top_words = 10

0 个答案:

没有答案