如何使用熊猫在csv文件中选择某些列

时间:2019-07-04 13:04:28

标签: python pandas multiple-columns xlsx

我只是刚刚开始我的编码之旅,并观看了YouTube上的大量教程,现在我正尝试使用jupyter将数据集从SPSS“导入”到python中。

到目前为止,我已经设法将.sav转换为.csv文件,并使用以下代码进行读取。我想选择数据中的某些列,并将它们存储在新的csv文件中,以便对它们进行一些分析,并尝试构建一个脚本来预测某些事物和特征。问题是我有数百个数据列,只希望3或4开始。

我尝试使用data.drop()函数,但很快意识到必须有更好的方法来做到这一点?

由于无法在更好的方式对此进行解释,我深表歉意,因为这是我在这里的第一篇文章。

import pandas as pd
df = pd.read_csv('csvfile.csv')
df

2 个答案:

答案 0 :(得分:1)

您可以按列名选择列。

import pandas as pd 
df = pd.read_csv('csvfile.csv')
final_df = df[['col1','col2','col3']]

或者您可以通过索引选择它们

final_df = df.iloc[:,[0,1,2]]

答案 1 :(得分:0)

使用此:

import pandas as pd
df = pd.read_csv('csvfile.csv' , usecols = ['col1','col2'])
df

在“ col1”和“ col2”的位置输入列名。然后将它们写入另一个csv中,执行以下操作:

df.to_csv('csv_file_1.csv' , index = False)