标签: scikit-learn stop-words countvectorizer tfidfvectorizer
有没有办法获得sklearn的TtfidfVectorizer(不是停用词)的stopwords_属性的tf和idf?
它们已经计算好了,所以模型应该有这些值,但有没有人曾经使用它们?如果没有,我想我必须破解内部代码并自己获取,对吗?
[UPDATE]
对于那些最终可能会在这个问题上结束的人,作为更新,我最终做的就是攻击sklearn/feature_extraction/text.py并将单词和值导出为CountVectorizer类的元组,而不仅仅是单词。
sklearn/feature_extraction/text.py