如何训练scvit中的svm学习csv文件中存在的训练数据

时间:2013-08-24 12:54:30

标签: csv machine-learning weka svm scikit-learn

我将训练数据放在CSV文件中,其第一个元素是结果,其余元素构成特征向量。

我正在使用Weka来训练和测试这种训练数据的各种算法。但是现在我想多次使用经过训练的模型来测试一个特征向量,这个特征向量不是训练数据的一部分,我对如何去做也不知道。我想我可以通过使用scikit-learn来做到这一点。请提供一些帮助。

1 个答案:

答案 0 :(得分:5)

只需切片数据,例如分类问题:

>>> import numpy as np
>>> from sklearn.ensemble import ExtraTreesClassifier

>>> data_train = np.loadtxt('data_train.csv', delimiter=',')
>>> X = data_train[:, 1:]
>>> y = data_train[:, 0].astype(np.int)
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y)

然后对第一列中没有目标标签的测试数据进行预测:

>>> data_test = np.loadtxt('data_test.csv', delimiter=',')
>>> print(clf.predict(data_test))