我想在模型中使用X变量的其他派生值。
s
当我处理标题中的文本数据时,我首先将其单独转换为dtm:
void xfunc(int *l, double *x, double *s){
int i,j;
for (i = 0, i < *l, i ++){
s[i] = x;
}
}
现在我将文本作为文档术语矩阵,我想将其他功能添加到X_train_dtm这些数字中,例如'wordcount','sumscores','length'。我将使用新的dtm创建模型,因此我将插入附加功能更准确。
如何将pandas数据框的其他数字列添加到稀疏csr矩阵?
答案 0 :(得分:12)
找到解决方案。我们可以使用sparse.hstack执行此操作:
from scipy.sparse import hstack
X_train_dtm = hstack((X_train_dtm,np.array(X_train['wordcount'])[:,None]))