我有一个包含3,500,000个文本文档的语料库。我想构建一个(3,500,000 * 5,000)大小的tf-idf矩阵。在这里,我有5,000个不同的特征(单词)。
我在python中使用scikit
sklearn
。我在哪里使用TfidfVectorizer
来做到这一点。我已经构建了一个5000大小的字典(每个特征一个)。在初始化TfidfVectorizer
时,我正在使用功能字典设置参数vocabulary
。但是在调用fit_transform
时,它会显示一些内存映射,然后是“CORE DUMP”。
TfidfVectorizer
对固定词汇和大型语料库有效吗?