在大数据上使用梯度下降的Logistic回归

时间:2016-09-06 18:12:48

标签: logistic-regression gradient-descent

我有一个包含大约300000个示例和大约50-60个功能的训练集,而且它是一个包含大约7个类的多类。我有我的逻辑回归函数,使用梯度下降找出参数的收敛。我的梯度下降算法以矩阵形式查找参数,因为它在矩阵形式中比在循环中单独和线性地执行更快。 例如: 矩阵(P)< - 矩阵(P) - 学习率(T(矩阵(X))*(矩阵(h(X)) - 矩阵(Y)))

对于小型训练数据,它非常快并且提供正确的值,最大迭代次数大约为1000000,但是如果有很多训练数据,那么它非常慢,大约需要500次迭代,需要18分钟,但是需要大量的迭代次数。梯度下降,成本仍然很高,并没有正确预测班级。

我知道,我应该实现功能选择或功能扩展,我不能使用提供的包。使用的语言是R.如何在不使用任何库包的情况下实现特征选择或缩放。

1 个答案:

答案 0 :(得分:0)

根据link,您可以使用Z分数归一化或最小 - 最大缩放方法。两种方法都将数据缩放到[0,1]范围。 Z-score normalization计算为 enter image description here

Min-max scaling method计算如下:

enter image description here