我将训练数据放在CSV文件中,其第一个元素是结果,其余元素构成特征向量。
我正在使用Weka来训练和测试这种训练数据的各种算法。但是现在我想多次使用经过训练的模型来测试一个特征向量,这个特征向量不是训练数据的一部分,我对如何去做也不知道。我想我可以通过使用scikit-learn来做到这一点。请提供一些帮助。
答案 0 :(得分:5)
只需切片数据,例如分类问题:
>>> import numpy as np
>>> from sklearn.ensemble import ExtraTreesClassifier
>>> data_train = np.loadtxt('data_train.csv', delimiter=',')
>>> X = data_train[:, 1:]
>>> y = data_train[:, 0].astype(np.int)
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y)
然后对第一列中没有目标标签的测试数据进行预测:
>>> data_test = np.loadtxt('data_test.csv', delimiter=',')
>>> print(clf.predict(data_test))