我知道使用scikit学习我可以使用,
vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2')
corpus = vectorizer.fit_transform(text)
这段代码。但我怎么能用gensim做到这一点?
答案 0 :(得分:1)
我想你可以看看来自utils的simple_preprocess
gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15)
Convert a document into a list of tokens.
This lowercases, tokenizes, de-accents (optional). – the output are final tokens = unicode strings, that won’t be processed any further.
答案 1 :(得分:0)
使用nltk
的{{1}}函数是实现此目的的好方法。
everygrams
这将在文本中创建所有uni和bigrams。