标签: python tf-idf feature-selection
TfIdfVectorizer(max_features=50)根据术语在整个语料库中的频率最高的max_features来选择前50个特征。 根据TfIdf的实现,它对出现率较低的单词给予了更高的重视。如example_1和example_2
TfIdfVectorizer(max_features=50)
我在任何地方都找不到答案。
那么,当出现次数较少的特征更为重要时,基于词频选择前n个特征又有什么帮助呢? 另外,还有其他选择相关功能的方法吗?