我有一个庞大的数据集
1)dataset_1 =(13000,2048)#13000个样本,每个2048个特征 2)dataset_2 =(15000,12000)
为了加快从sklearn
from sklearn.linear_model import SGDClassifier
model=SGDClassifier(loss="hinge", penalty="l2",random_state=42,n_jobs=-1)
然后在每个256个样本的小批量上应用partial_fit,如下所示:
model.partial_fit(X_train_batch, y_train_batch, classes=np.unique(y_train),sample_weight=weights)
超过100 epochs
LinearSVC()
或SVC()
相比,我节省了大量时间
我的问题如下:
1)如何将SGDClassifier
用于非线性SVM ,例如:RBF内核,三角形内核,直方图交集内核......?
2)在损失=“铰链”的SGDClassifier中使用Penalty参数C的值是多少?它是C=1.0
和LinearSVC()
中的默认参数SVC()
吗?
2-B)如何在SGDClassifier中改变C
个值?
谢谢