Question

我有100万个文档，我需要做一个CountVectorizer （无法散列，因为需要映射功能）

当我尝试fit_transform仅几千时，只需要几分钟，但是当我尝试处理所有数据时……5个小时并没有结束。（有办法知道进度吗？），我认为我的电脑内存不足。

如果我fit_transform块（100000 x 10），计数改变了吗？

我该怎么办？谢谢！

from sklearn.feature_extraction.text import CountVectorizer

# Bag of Words 
n_words = 20000
n_grams = (1,3)
vect = CountVectorizer(max_features=n_words, ngram_range=n_grams)
X_train = vect.fit_transform(X_train).astype("float32")   # X_train.shape == 1 million
X_val = vect.transform(X_val).astype("float32")  
features = vect.get_feature_names()
print("CountVectorizer Done")

块中的CountVectorizer -Python

0 个答案: