处理外部数据集

时间:2014-04-29 02:09:44

标签: python dataset scikit-learn

我对scikit-learn很新,并且正在学习和预测虹膜数据集中的样本。但是如何为此目的加载外部数据集?

我下载的数据集包含以下格式的数据;

id attr1 attr2 .... label
123 0 0 ..... abc
234 0 0 ..... dsf
....
....

那么我应该如何加载这个数据集以学习和绘制预测?感谢。

1 个答案:

答案 0 :(得分:0)

一种选择是使用pandas。假设数据是空格分隔的:

import pandas as pd
X = pd.read_csv('data.txt', sep=' ').values

其中read_csv返回DataFramevalues属性返回包含数据的numpy数组。您可能希望将上述X的最后一列与标签分开,比如说成一维数组y

X, y = X[:, :-1], X[:, -1]