如何在python中对没有头文件的大型csv文件进行分类?

时间:2017-09-15 20:49:16

标签: python-3.x pandas machine-learning classification

我有一个没有标题的大型csv文件(3000 * 20000)数据我添加了一列代表类。当功能没有标题时,我如何使数据适合模型,由于列数较多,无法手动添加数据。 有没有办法自动迭代连续的每一列?

当我有一个4列的小文件时,我使用了以下代码:

{{1}}

但是使用3000 x 20000文件,我不知道如何识别功能和标签/目标

1 个答案:

答案 0 :(得分:1)

假设您有类似的csv:

1,2,3,4,0
1,2,3,4,1
1,2,3,4,1
1,2,3,4,0

其中前4列是要素,最后一列是您想要的标签或类。您可以使用pandas.read_csv阅读该文件,并为您的模型创建一个数据框,并为您的模型创建一个适合您的标签的数据框。

import pandas as pd

#CSV localPath
mypath ='C:\\...'

#The names of the columns you want to have in your dataframe
colNames = ['Feature1','Feature2','Feature3','Feature4','class']

#Read the data as dataframe
df = pd.read_csv(filepath_or_buffer = mypath, 
                 names = colNames , sep  = ',' , header = None)

#Get the first four columns as features
features = df.ix[:,:4]
#and last columns as label
labels = df['class']