我对如何在Python中的scikit-learn库中使用ngrams感到有点困惑,具体来说,ngram_range
参数在CountVectorizer中是如何工作的。
运行此代码:
from sklearn.feature_extraction.text import CountVectorizer
vocabulary = ['hi ', 'bye', 'run away']
cv = CountVectorizer(vocabulary=vocabulary, ngram_range=(1, 2))
print cv.vocabulary_
给了我:
{'hi ': 0, 'bye': 1, 'run away': 2}
在我明显错误的印象中,我会得到unigrams和bigrams,就像这样:
{'hi ': 0, 'bye': 1, 'run away': 2, 'run': 3, 'away': 4}
我正在使用此处的文档:http://scikit-learn.org/stable/modules/feature_extraction.html
显然,我对如何使用ngrams的理解存在严重问题。也许这个论点没有效果,或者我对一个真正的二元组有一些概念上的问题!我很难过。如果有人提出建议,我会感激不尽。
更新
我意识到了我的方式的愚蠢。我的印象是ngram_range
会影响词汇量,而不会影响语料库。
答案 0 :(得分:24)
明确设置vocabulary
意味着不会从数据中学习词汇。如果你没有设置它,你会得到:
>>> v = CountVectorizer(ngram_range=(1, 2))
>>> pprint(v.fit(["an apple a day keeps the doctor away"]).vocabulary_)
{u'an': 0,
u'an apple': 1,
u'apple': 2,
u'apple day': 3,
u'away': 4,
u'day': 5,
u'day keeps': 6,
u'doctor': 7,
u'doctor away': 8,
u'keeps': 9,
u'keeps the': 10,
u'the': 11,
u'the doctor': 12}
明确的词汇表限制将从文本中提取的术语;词汇没有改变:
>>> v = CountVectorizer(ngram_range=(1, 2), vocabulary={"keeps", "keeps the"})
>>> v.fit_transform(["an apple a day keeps the doctor away"]).toarray()
array([[1, 1]]) # unigram and bigram found
(请注意,在n-gram提取之前应用了停用词过滤,因此"apple day"
。)