处理稀疏+非稀疏数据以创建模型的最佳方法

时间:2015-10-16 11:39:11

标签: r scikit-learn sparse-matrix estimation

我想知道处理稀疏+非稀疏数据的最佳方法是什么?使用scikit学习的岭回归。

Ridge可以处理稀疏数据和非稀疏数据。

想象一下简单的description(文本)字段,它获取Count / Tdidf Vectorized(稀疏)和income连续变量。

现在假设我们有其他几个文本字段和其他几个连续变量。

对连续y变量进行建模的最佳方法是什么?

我考虑过制作两个单独的模型(一个使用稀疏数据,一个使用非稀疏数据)并以某种方式尝试组合。

我还考虑过使用PCA将稀疏数据转换为“可处理”的连续功能。

您通常如何解决此问题?

注意:连续变量将具有许多唯一值(并且在将连续转换为二进制文件时无论如何都会失去功率),并且文本字段最终可能会有一百万个特征,因此无法密集。

1 个答案:

答案 0 :(得分:-1)

这个回复可能有点脱离背景,但我想通过“Ridge可以处理稀疏和非稀疏数据”来理解?我试图在R中运行逻辑回归模型,其中包含所有文本字段,但是,我的因变量非常稀疏。只有.9%。你觉得里奇会有很好的算法吗?