我想用Sklearn以在线方式训练Logistic回归分类器。我知道“ SAG”或“ SAGA”,但是我不确定如何实现。
具体来说,我的目标是让算法在时间t的最近t-x个月(例如x = 3)进行训练,其中t是一年中的一个月。我想对下个月(时间t + 1)的一组示例进行预测。
这是我的df:
X.head()
year month age job marital
0 2008 5 56 3 1
1 2008 5 57 7 1
2 2008 5 37 7 1
3 2008 5 40 0 1
4 2008 5 56 7 1
y.head()
0 0
1 1
2 0
3 0
4 0
Name: y, dtype: int8
假设我的clf如下面的代码所示(在本示例中,我已经对整个数据集进行了批量训练):
clf = LogisticRegression(C=1, max_iter=100, class_weight = 'balanced')
y_pred = clf.predict(X)
cmx = pd.DataFrame(confusion_matrix(y, y_pred),
index = ['No', 'Yes'],
columns = ['No', 'Yes'])
注意,我不仅要在数据集中为每个月创建一个模型,还要在整个数据集中以在线(技术上为小批量)的方式训练模型