Question

我想在模型中使用X变量的其他派生值。

当我处理标题中的文本数据时，我首先将其单独转换为dtm：

void xfunc(int *l, double *x, double *s){
    int i,j;
    for (i = 0, i < *l, i ++){
        s[i] = x;
     }
}

现在我将文本作为文档术语矩阵，我想将其他功能添加到X_train_dtm这些数字中，例如'wordcount'，'sumscores'，'length'。我将使用新的dtm创建模型，因此我将插入附加功能更准确。

如何将pandas数据框的其他数字列添加到稀疏csr矩阵？

Answer 1

找到解决方案。我们可以使用sparse.hstack执行此操作：

from scipy.sparse import hstack
X_train_dtm = hstack((X_train_dtm,np.array(X_train['wordcount'])[:,None]))