如何将pandas数据帧转换为numpy数据帧

时间:2015-04-07 10:47:21

标签: python csv numpy pandas

我有一个带有类标签的简单数据集,并存储为“mydata.csv”,

GA_ID   PN_ID   PC_ID   MBP_ID  GR_ID   AP_ID   class
0.033   6.652   6.681   0.194   0.874   3.177     0
0.034   9.039   6.224   0.194   1.137   3.177     0
0.035   10.936  10.304  1.015   0.911   4.9       1
0.022   10.11   9.603   1.374   0.848   4.566     1

我只是使用给定的代码将此数据转换为numpy数组,以便我可以使用此数据集进行预测和机器学习建模,但由于标题错误已被引发“ValueError:无法将字符串转换为float:”时我从文件中删除了标题这个方法适合我:

import numpy as np
#from sklearn import metrics
#from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

raw_data = open("/home/me/Desktop/scklearn/data.csv")
dataset = np.loadtxt(raw_data, delimiter=",")
X = dataset[:,0:5]
y = dataset[:,6]

我也尝试跳过标题但发生错误:

dataset = np.loadtxt(raw_data, delimiter=",")[1:]

然后我转移到pandas并从这个方法导入数据:

raw_data = pandas.read_csv("/home/me/Desktop/scklearn/data.csv")

但是当我试图将其转换为numpy数组时,我再次吸吮它显示错误,就像之前一样。

pandas中是否有任何方法可以: 将姊妹保存为列表:

header_list = ('GA_ID','PN_ID','PC_ID' ,'MBP_ID' ,'GR_ID' , 'AP_ID','class')

最后一列为类标签,其余部分(1:4,0:5)为numpy数组,用于模型构建:

我已经写下了获取列列表的代码

clm_list = []
raw_data = pandas.read_csv("/home/me/Desktop/scklearn/data.csv")
clms = raw_data.columns()
for clm in clms:
    clm_list.append(clm)
print clm_list ## produces column list

1 个答案:

答案 0 :(得分:3)

在阅读了很多内容之后,我终于实现了我想要的并成功实现了scikit-learn上的数据,下面给出了使用scikit-learn兼容形式转换CSV数据的代码。谢谢

import pandas as pd
r = pd.read_csv("/home/zebrafish/Desktop/ex.csv")
print r.values

clm_list = []
for column in r.columns:
    clm_list.append(column)


X = r[clm_list[0:len(clm_list)-1]].values
y = r[clm_list[len(clm_list)-1]].values

print clm_list
print X
print y

出现这段代码正是我想要的:

['GA_ID', 'PN_ID', 'PC_ID', 'MBP_ID', 'GR_ID', 'AP_ID', 'class']

[[  0.033   6.652   6.681   0.194   0.874   3.177]
 [  0.034   9.039   6.224   0.194   1.137   3.177]
 [  0.035  10.936  10.304   1.015   0.911   4.9  ]
 [  0.022  10.11    9.603   1.374   0.848   4.566]]

[0 0 1 1]