在Python中有没有什么方法可以将多个单词视为单个?我写了一个脚本来查找文档集合中单词的Tf-Idf值。问题在于,它为单个单词提供了Tf-Idf。但有些情况下我会将多个单词视为一个单词,例如大数据,机器学习这样的单词应该被视为单个单词和Tf-Idf应计算这些单词的分数。任何帮助都非常有用。
答案 0 :(得分:1)
我会使用scikit-learn和TfidfVectorizer来接近它。调整其中的一些参数基本上可以让你完成所有的工作。
虽然没有一个很好的例子,但很难展示它的功能。
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)
知道ngram_range
参数可让您选择是否对此感兴趣。通过选择范围,双胞胎,三卦等。