标签: python dataset scikit-learn
我对scikit-learn很新,并且正在学习和预测虹膜数据集中的样本。但是如何为此目的加载外部数据集?
我下载的数据集包含以下格式的数据;
id attr1 attr2 .... label 123 0 0 ..... abc 234 0 0 ..... dsf .... ....
那么我应该如何加载这个数据集以学习和绘制预测?感谢。
答案 0 :(得分:0)
一种选择是使用pandas。假设数据是空格分隔的:
pandas
import pandas as pd X = pd.read_csv('data.txt', sep=' ').values
其中read_csv返回DataFrame,values属性返回包含数据的numpy数组。您可能希望将上述X的最后一列与标签分开,比如说成一维数组y:
read_csv
DataFrame
values
X
y
X, y = X[:, :-1], X[:, -1]