在执行TF-IFcosine相似性时添加stop_words

时间:2013-10-29 10:43:38

标签: python tf-idf cosine-similarity

我正在使用sklearn来执行余弦相似性。

有没有办法将所有以大写字母开头的单词视为停用词?

1 个答案:

答案 0 :(得分:0)

以下正则表达式将字符串作为输入,并删除/替换以空字符串以大写字符开头的所有字母数字字符序列。有关更多选项,请参阅http://docs.python.org/2.7/library/re.html

s1 = "The cat Went to The store To get Some food doNotMatch"
r1 = re.compile('\\b[A-Z]\w+')
r1.sub('',s1)
' cat  to  store  get  food doNotMatch'

Sklearn还有许多用于文本特征生成的强大工具,例如sklearn.feature_extraction.text。您也可以考虑使用NLTK来帮助进行句子分割,删除停用词等...