python - 中文文本的TF-IDF算法 - Thinbug

中文文本的TF-IDF算法

时间：2020-07-23 09:09:01

标签： python tf-idf tfidfvectorizer

我正在对中文文本进行TF-IDF，并在文本中搜索前10个用过的单词。
当我获得前10个单词时，我会得到一些毫无意义的单词，例如“成为”，“表示”等。
有什么方法只能说有意义的话吗？
我正在用“ jieba”将中文句子切成单词

1 个答案:

答案 0 :(得分：1)

诸如“成为”，“表示”之类的词被我们称为停用词。在许多情况下，它们是常用的单词，在句子中几乎没有意义，用英语认为单词“ a”和“ the”。

有时候，在执行分析之前，有必要删除这些停用词，尤其是对于TF-IDF，因为这可能会导致毫无意义的结果。

Jieba似乎不包含删除停用词的功能，但是genediazjr收集了相当全面的中文停用词列表。您可以导入它，并在进行TF-IDF分析之前从原始文本中删除这些停用词。