标签: scikit-learn
我有一个训练集,其中有80万行都是中文句子。我采用TfidfVectorize将句子转换为tf-idf稀疏矩阵。
由于稀疏矩阵的列太多,我想采用LDA进行分解。而且我发现LDA中的“适合”功能只能接受类似数组的输入。但是由于内存的限制,我无法将稀疏矩阵转换为数组。
您有什么建议吗?