如何使用gensim将一组文档标记为unigram + bigram bagofwords?

时间:2014-11-13 05:36:55

标签: python-2.7 scikit-learn gensim

我知道使用scikit学习我可以使用,

vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2')

corpus = vectorizer.fit_transform(text)

这段代码。但我怎么能用gensim做到这一点?

2 个答案:

答案 0 :(得分:1)

我想你可以看看来自utils的simple_preprocess

gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15)
Convert a document into a list of tokens.

This lowercases, tokenizes, de-accents (optional). – the output are final tokens = unicode strings, that won’t be processed any further.

答案 1 :(得分:0)

使用nltk的{​​{1}}函数是实现此目的的好方法。

everygrams

这将在文本中创建所有uni和bigrams。