scikit-learn使用大数据集进行矢量化

时间:2016-10-15 02:59:21

标签: python numpy machine-learning scikit-learn

我的磁盘上有9GB的分段文档,而我的vps只有4GB内存。

如何在不初始化时加载所有语料库的情况下对所有数据集进行矢量化?有没有示例代码?

我的代码如下:

contents = [open('./seg_corpus/' + filename).read()
            for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words)
vectorizer.fit(contents)

1 个答案:

答案 0 :(得分:1)

尝试此操作,而不是将所有文本加载到内存中,您只能将文件句柄传递到fit方法,但必须在input='file'构造函数中指定CountVectorizer

contents = [open('./seg_corpus/' + filename)
        for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words, input='file')
vectorizer.fit(contents)