Question

我正在尝试使用SkLearn的TfidfVectorizer提取单字组，二元组和三字组的词汇表。这是我当前的代码：

 max_df_param =  .003
 use_idf = True

 vectorizer = TfidfVectorizer(max_df = max_df_param, stop_words='english', ngram_range=(1,1), max_features=2000, use_idf=use_idf)
 X = vectorizer.fit_transform(dataframe[column])
 unigrams = vectorizer.get_feature_names()

 vectorizer = TfidfVectorizer(max_df = max_df_param, stop_words='english', ngram_range=(2,2), max_features=max(1, int(len(unigrams)/10)), use_idf=use_idf)
 X = vectorizer.fit_transform(dataframe[column])
 bigrams = vectorizer.get_feature_names()

 vectorizer = TfidfVectorizer(max_df = max_df_param, stop_words='english', ngram_range=(3,3), max_features=max(1, int(len(unigrams)/10)), use_idf=use_idf)
 X = vectorizer.fit_transform(dataframe[column])
 trigrams = vectorizer.get_feature_names()

 vocab = np.concatenate((unigrams, bigrams, trigrams))

但是，我想避免使用数字和包含数字的单词，并且当前输出包含诸如“ 0”之类的字词 101 110 12 15日 16号 180度 180天 18日 190 1900年 1960年代 197 1980 1b 20 200 200a 2d 3D 416 第四名 50 7a 7b“

我尝试仅使用带有regex的token_pattern参数和字母字符的单词：

vectorizer = TfidfVectorizer(max_df = max_df_param, 
                            token_pattern=u'(?u)\b\^[A-Za-z]+$\b', 
                            stop_words='english', ngram_range=(1,1), max_features=2000, use_idf=use_idf)

但这返回：ValueError: empty vocabulary; perhaps the documents only contain stop words

我也尝试过only removing numbers，但仍然遇到相同的错误。

我的正则表达式不正确吗？还是我错误地使用了TfidfVectorizer？（我也尝试过删除max_features参数）

谢谢！

Answer 1

那是因为您的正则表达式是错误的。

1）您正在使用^和$来表示字符串的开始和结束。这意味着此模式将只匹配其中只有字母的完整字符串（没有数字，没有空格，没有其他特殊字符）。你不想要那个。所以删除它。

在此处查看有关特殊字符的详细信息：https://docs.python.org/3/library/re.html#regular-expression-syntax

2）您使用的是原始正则表达式模式，而没有转义反斜杠，反斜杠本身将用于转义其后的字符。因此，当与python中的正则表达式结合使用时，这将是无效的。您可以使用双反斜杠（而不是单反斜杠）来正确格式化字符串，也可以使用r前缀。

3）u前缀用于unicode。除非您的正则表达式模式具有特殊的unicode字符，否则也不需要这样做。在此处查看有关此内容的更多信息：Python regex - r prefix

所以最后您正确的token_pattern应该是：

token_pattern=r'(?u)\b[A-Za-z]+\b'

如何使TfidfVectorizer仅学习词汇中的字母字符（不包括数字）

1 个答案: