块中的CountVectorizer -Python

时间:2020-08-06 09:23:33

标签: python scikit-learn chunks

我有100万个文档,我需要做一个CountVectorizer (无法散列,因为需要映射功能)

当我尝试fit_transform仅几千时,只需要几分钟,但是当我尝试处理所有数据时……5个小时并没有结束。 (有办法知道进度吗?),我认为我的电脑内存不足。

如果我fit_transform块(100000 x 10),计数改变了吗?

我该怎么办?谢谢!

from sklearn.feature_extraction.text import CountVectorizer

# Bag of Words 
n_words = 20000
n_grams = (1,3)
vect = CountVectorizer(max_features=n_words, ngram_range=n_grams)
X_train = vect.fit_transform(X_train).astype("float32")   # X_train.shape == 1 million
X_val = vect.transform(X_val).astype("float32")  
features = vect.get_feature_names()
print("CountVectorizer Done")

0 个答案:

没有答案
相关问题