使用python删除CSV中的列

时间:2011-09-28 20:04:06

标签: python csv row-removal

我已经能够使用本网站上几个用户的输入创建一个带有python的csv,我想对你的帖子表示感谢。我现在很难过,并将发表我的第一个问题。

我的input.csv如下所示:

day,month,year,lat,long
01,04,2001,45.00,120.00
02,04,2003,44.00,118.00

我正在尝试删除“年份”列及其所有条目。从1960年到2010年,总共有40多个参赛作品,年份范围很广。

9 个答案:

答案 0 :(得分:42)

import csv
with open("source","rb") as source:
    rdr= csv.reader( source )
    with open("result","wb") as result:
        wtr= csv.writer( result )
        for r in rdr:
            wtr.writerow( (r[0], r[1], r[3], r[4]) )

BTW,可以删除for循环,但不能真正简化。

        in_iter= ( (r[0], r[1], r[3], r[4]) for r in rdr )
        wtr.writerows( in_iter )

此外,您可以采用超文字的方式来删除列的要求。我发现这通常是一个糟糕的政策,因为它不适用于删除多个列。当您尝试删除第二个时,您会发现位置已全部移位且结果行不明显。但仅限于一列,这可行。

            del r[2]
            wtr.writerow( r )

答案 1 :(得分:23)

使用Pandas模块会更容易。

import pandas as pd
f=pd.read_csv("test.csv")
keep_col = ['day','month','lat','long']
new_f = f[keep_col]
new_f.to_csv("newFile.csv", index=False)

这里有简短的解释:

>>>f=pd.read_csv("test.csv")
>>> f
   day  month  year  lat  long
0    1      4  2001   45   120
1    2      4  2003   44   118
>>> keep_col = ['day','month','lat','long'] 
>>> f[keep_col]
    day  month  lat  long
0    1      4   45   120
1    2      4   44   118
>>>

答案 2 :(得分:7)

使用dict抓取标题然后循环可以获得干净的需求。

import csv
ct = 0
cols_i_want = {'cost' : -1, 'date' : -1}
with open("file1.csv","rb") as source:
    rdr = csv.reader( source )
    with open("result","wb") as result:
        wtr = csv.writer( result )
        for row in rdr:
            if ct == 0:
              cc = 0
              for col in row:
                for ciw in cols_i_want: 
                  if col == ciw:
                    cols_i_want[ciw] = cc
                cc += 1
            wtr.writerow( (row[cols_i_want['cost']], row[cols_i_want['date']]) )
            ct += 1

答案 3 :(得分:1)

您可以使用csv包来迭代您的csv文件,并将您想要的列输出到另一个csv文件。

以下示例未经过测试,应说明解决方案:

import csv

file_name = 'C:\Temp\my_file.csv'
output_file = 'C:\Temp\new_file.csv'
csv_file = open(file_name, 'r')
## note that the index of the year column is excluded
column_indices = [0,1,3,4]
with open(output_file, 'w') as fh:
    reader = csv.reader(csv_file, delimiter=',')
    for row in reader:
       tmp_row = []
       for col_inx in column_indices:
           tmp_row.append(row[col_inx])
       fh.write(','.join(tmp_row))

答案 4 :(得分:1)

在我的脑海中,这将是没有任何错误检查或配置任何东西的能力。这是“留给读者”。

outFile = open( 'newFile', 'w' )
for line in open( 'oldFile' ):
   items = line.split( ',' )
   outFile.write( ','.join( items[:2] + items[ 3: ] ) )
outFile.close()

答案 5 :(得分:1)

您可以直接删除

del variable_name['year']

答案 6 :(得分:1)

我会使用列号为Pandas的熊猫

f = pd.read_csv(“ test.csv”,usecols = [0,1,3,4])

f.to_csv(“ test.csv”,index = False)

答案 7 :(得分:0)

这取决于您如何存储已解析的CSV,但通常需要del运算符。

如果您有一系列dicts:

input = [ {'day':01, 'month':04, 'year':2001, ...}, ... ]
for E in input: del E['year']

如果你有一个数组数组:

input = [ [01, 04, 2001, ...],
          [...],
          ...
        ]
for E in input: del E[2]

答案 8 :(得分:0)

尝试:

result= data.drop('year', 1)
result.head(5)