(文本分类)处理相同的单词,但来自不同的文件[TFIDF]

时间:2014-03-03 22:58:01

标签: python text machine-learning classification tf-idf

所以我正在创建一个python类来计算文档中每个单词的tfidf权重。现在在我的数据集中,我有50个文档。在这些文献中,许多单词相交,因此具有多个相同的单词特征但具有不同的tfidf权重。所以问题是如何将所有权重总结为一个单一权重?

1 个答案:

答案 0 :(得分:2)

首先,让我们明确一些术语。术语是语料库中的单词单元。令牌是特定文档中特定位置的术语。可以有多个使用相同术语的令牌。例如,在我的回答中,有许多令牌使用术语“the”。但“只有”一词。

我觉得你有点困惑。 TF-IDF样式加权函数指定如何从文档中的术语的令牌频率和文档中的每个术语的语料库中的背景令牌文档频率中产生每个术语得分。 TF-IDF将文档转换为术语到权重的映射。因此,在文档中共享相同术语的更多令牌将增加该术语的相应权重,但每个术语只有一个权重。在文档中共享术语的令牌没有单独的分数。