我想知道处理稀疏+非稀疏数据的最佳方法是什么?使用scikit学习的岭回归。
Ridge可以处理稀疏数据和非稀疏数据。
想象一下简单的description
(文本)字段,它获取Count / Tdidf Vectorized(稀疏)和income
连续变量。
现在假设我们有其他几个文本字段和其他几个连续变量。
对连续y
变量进行建模的最佳方法是什么?
我考虑过制作两个单独的模型(一个使用稀疏数据,一个使用非稀疏数据)并以某种方式尝试组合。
我还考虑过使用PCA将稀疏数据转换为“可处理”的连续功能。
您通常如何解决此问题?
注意:连续变量将具有许多唯一值(并且在将连续转换为二进制文件时无论如何都会失去功率),并且文本字段最终可能会有一百万个特征,因此无法密集。
答案 0 :(得分:-1)
这个回复可能有点脱离背景,但我想通过“Ridge可以处理稀疏和非稀疏数据”来理解?我试图在R中运行逻辑回归模型,其中包含所有文本字段,但是,我的因变量非常稀疏。只有.9%。你觉得里奇会有很好的算法吗?