SciKit Learn - 糟糕的SGDClassifier准确性

时间:2016-05-21 18:22:29

标签: python scikit-learn

我正在尝试使用SGDClassifier对一些数据进行建模,但出于某种原因,我的准确性非常糟糕。我对此很陌生,所以我真的不明白为什么。

这是我的代码:

from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.linear_model import SGDClassifier
import numpy as np
from sklearn import metrics as ms

msk = np.random.rand(len(beers)) < 0.8

train = beers[msk]
test = beers[~msk]

X = train [['Price', 'Net price', 'Purchase price','Hour','Product_id','product_group2']]
y = train[['Quantity']]
y = y.as_matrix().ravel()

X_test = test [['Price', 'Net price', 'Purchase price','Hour','Product_id','product_group2']]
y_test = test[['Quantity']]
y_test = y_test.as_matrix().ravel()

scaler = StandardScaler()
scaler.fit(X)  
X = scaler.transform(X)
X_test = scaler.transform(X_test) 

clf = SGDClassifier(loss="hinge", alpha=0.01, n_iter=1000, fit_intercept=True)
clf.fit(X, y)    

predictions = clf.predict(X_test)
print "Accuracy:", ms.accuracy_score(y_test,predictions)

打印的准确度约为0.38,这非常糟糕。我的数据如下:

    Product_id/Date/product_group1/Price/Net price/Purchase price/Hour/Quantity/product_group2/KPI
0   107 12/31/2012  10  300 236 220 10  1   108 16

我有200 000多行数据。

我还应该怎么办?数据被缩放,因此不应该是一个问题,并且模型也应该在1000次迭代后收敛。 谢谢!

1 个答案:

答案 0 :(得分:1)

您可以使用GridSearchCV优化SGD分类器的参数。 另请浏览sklearn.feature_selection以获得最佳功能。