中文文本的TF-IDF算法

时间:2020-07-23 09:09:01

标签: python tf-idf tfidfvectorizer

我正在对中文文本进行TF-IDF,并在文本中搜索前10个用过的单词。
当我获得前10个单词时,我会得到一些毫无意义的单词,例如“成为”,“表示”等。
有什么方法只能说有意义的话吗?
我正在用“ jieba”将中文句子切成单词

1 个答案:

答案 0 :(得分:1)

诸如“成为”,“表示”之类的词被我们称为停用词。在许多情况下,它们是常用的单词,在句子中几乎没有意义,用英语认为单词“ a”和“ the”。

有时候,在执行分析之前,有必要删除这些停用词,尤其是对于TF-IDF,因为这可能会导致毫无意义的结果。

Jieba似乎不包含删除停用词的功能,但是genediazjr收集了相当全面的中文停用词列表。您可以导入它,并在进行TF-IDF分析之前从原始文本中删除这些停用词。