python中的大型数据集的功能选择

时间:2017-12-28 12:06:03

标签: scikit-learn classification large-data feature-selection

我有一个维度 3144469 x 268496 的文档术语矩阵,我需要对其进行特征选择。我尝试使用Sckit-learn选项进行功能选择

fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=40)
documenttermmatrix_train= fs.fit_transform(documenttermmatrix,y1_train)

我收到内存错误

y1_train有大约9k个唯一值

python中是否还有其他函数或库可以为python中的大型数据集进行特征选择(chisquare,信息增益)?

0 个答案:

没有答案