Question

我必须计算两个或多个文本的距离/相似度。有些文本真的很小，或者没有形成正确的英文单词等，“A1024515”。这意味着它应该接受列表中的每个单词。

作为测试案例，我使用以下列表作为单词语料库。

words= ['A', 'A', 'A']

vect = TfidfVectorizer(min_df =0)
dtm = vect.fit_transform(words)
df_tf_idf = pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names())

但是，我收到以下错误

ValueError: empty vocabulary; perhaps the documents only contain stop words

如何确保列表被接受为可能的单词并确保不会从语料库中删除停用词？

Answer 1

问题不在于停用词，默认情况下没有停用词。问题是你的测试用例中的句子太短（1个字符）。

By default tfidfVectorizer uses r'(?u)\b\w\w+\b' to tokenize将句子语料库放入单词列表中。哪个不适用于单个字符串。

sklearn.feature_extraction.text.TfidfVectorizer(... token_pattern=’(?u)\b\w\w+\b’, ...)

您可以使用自己的正则表达式，将tokenizer作为构造函数参数（在这种情况下，给定的tokenizer会覆盖正则表达式）。或者使用更长，更真实的测试用例。

Scikit - TF-IDF空词汇

1 个答案: