从文件加载数据集,以与sklearn一起使用

时间:2013-02-27 10:02:13

标签: python dataset scikit-learn

我看到使用sklearn我们可以使用一些预定义的数据集,例如mydataset = datasets.load_digits()我们可以获得数据集mydataset.data的数组(一个numpy数组?)和相应标签的数组{ {1}}。但是我想加载我自己的数据集以便能够将其与sklearn一起使用。我应该如何以及以何种格式加载数据?我的文件格式如下(每行是一个数据点):

mydataset.target

1 个答案:

答案 0 :(得分:11)

您可以使用numpy的genfromtxt函数从文件中检索数据(http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html

import numpy as np
mydata = np.genfromtxt(filename, delimiter=",")

但是,如果你有文本列,使用genfromtxt会比较棘手,因为你需要指定数据类型。

优秀的Pandas库(http://pandas.pydata.org/

会更容易
import pandas as pd
mydata = pd.read_csv(filename)
target = mydata["Label"]  #provided your csv has header row, and the label column is named "Label"

#select all but the last column as data
data = mydata.ix[:,:-1]