将pandas列添加到稀疏矩阵

时间:2017-01-30 01:11:47

标签: python pandas scikit-learn sklearn-pandas

我想在模型中使用X变量的其他派生值。

s

当我处理标题中的文本数据时,我首先将其单独转换为dtm:

void xfunc(int *l, double *x, double *s){
    int i,j;
    for (i = 0, i < *l, i ++){
        s[i] = x;
     }
}

现在我将文本作为文档术语矩阵,我想将其他功能添加到X_train_dtm这些数字中,例如'wordcount','sumscores','length'。我将使用新的dtm创建模型,因此我将插入附加功能更准确。

如何将pandas数据框的其他数字列添加到稀疏csr矩阵?

1 个答案:

答案 0 :(得分:12)

找到解决方案。我们可以使用sparse.hstack执行此操作:

from scipy.sparse import hstack
X_train_dtm = hstack((X_train_dtm,np.array(X_train['wordcount'])[:,None]))