我有100万个文档,我需要做一个CountVectorizer (无法散列,因为需要映射功能)
当我尝试fit_transform仅几千时,只需要几分钟,但是当我尝试处理所有数据时……5个小时并没有结束。 (有办法知道进度吗?),我认为我的电脑内存不足。
如果我fit_transform块(100000 x 10),计数改变了吗?
我该怎么办?谢谢!
from sklearn.feature_extraction.text import CountVectorizer
# Bag of Words
n_words = 20000
n_grams = (1,3)
vect = CountVectorizer(max_features=n_words, ngram_range=n_grams)
X_train = vect.fit_transform(X_train).astype("float32") # X_train.shape == 1 million
X_val = vect.transform(X_val).astype("float32")
features = vect.get_feature_names()
print("CountVectorizer Done")