我有一个大的csv文件,其中一些行完全是空白的。如何使用Python删除csv中的所有空行?
根据你的所有建议,这就是我到目前为止所做的
import csv
# open input csv for reading
inputCSV = open(r'C:\input.csv', 'rb')
# create output csv for writing
outputCSV = open(r'C:\OUTPUT.csv', 'wb')
# prepare output csv for appending
appendCSV = open(r'C:\OUTPUT.csv', 'ab')
# create reader object
cr = csv.reader(inputCSV, dialect = 'excel')
# create writer object
cw = csv.writer(outputCSV, dialect = 'excel')
# create writer object for append
ca = csv.writer(appendCSV, dialect = 'excel')
# add pre-defined fields
cw.writerow(['FIELD1_','FIELD2_','FIELD3_','FIELD4_'])
# delete existing field names in input CSV
# ???????????????????????????
# loop through input csv, check for blanks, and write all changes to append csv
for row in cr:
if row or any(row) or any(field.strip() for field in row):
ca.writerow(row)
# close files
inputCSV.close()
outputCSV.close()
appendCSV.close()
这样可以或者有更好的方法吗?
答案 0 :(得分:20)
使用csv
模块:
import csv
...
with open(in_fnam) as in_file:
with open(out_fnam, 'w') as out_file:
writer = csv.writer(out_file)
for row in csv.reader(in_file):
if row:
writer.writerow(row)
如果您还需要删除所有字段为空的行,请将if row:
行更改为:
if any(row):
如果您还想将仅包含空白的字段视为空,则可以将其替换为:
if any(field.strip() for field in row):
请注意,在Python 2.x及更早版本中,csv
模块需要二进制文件,
所以你需要用e 'b'
标志打开你的文件。在3.x中,这样做会
导致错误。
答案 1 :(得分:3)
您必须打开第二个文件,将所有非空白行写入其中,删除原始文件并将第二个文件重命名为原始名称。
编辑:真正的空白行将是' \ n':
for line in f1.readlines():
if line.strip() == '':
continue
f2.write(line)
包含所有空白字段的行看起来像' ,,,,, \ n'。如果您认为这是一个空行:
for line in f1.readlines():
if ''.join(line.split(',')).strip() == '':
continue
f2.write(line)
打开,关闭,删除和重命名文件留给您练习。 (提示:import os,help(open),help(os.rename),help(os.unlink))
EDIT2:Laurence Gonsalves提醒我注意,有效的csv文件可能会在引用的csv字段中嵌入空行,例如1, 'this\n\nis tricky',123.45
。在这种情况下,csv模块将为您处理。对不起劳伦斯,你的答案值得被接受。 csv模块还将解决有关像"","",""\n
。
答案 2 :(得分:2)
python代码,用于从csv文件中删除空白行而不创建另一个文件。
def ReadWriteconfig_file(file):
try:
file_object = open(file, 'r')
lines = csv.reader(file_object, delimiter=',', quotechar='"')
flag = 0
data=[]
for line in lines:
if line == []:
flag =1
continue
else:
data.append(line)
file_object.close()
if flag ==1: #if blank line is present in file
file_object = open(file, 'w')
for line in data:
str1 = ','.join(line)
file_object.write(str1+"\n")
file_object.close()
except Exception,e:
print e
答案 3 :(得分:1)
感到惊讶的是,这里没有人提到pandas
。这是一个可能的解决方案。
import pandas as pd
df = pd.read_csv('input.csv')
df.to_csv('output.csv', index=False)
答案 4 :(得分:1)
这是一种使用熊猫的解决方案,可以删除空白行。
import pandas as pd
df = pd.read_csv('input.csv')
df.dropna(axis=0, how='all',inplace=True)
df.to_csv('output.csv', index=False)
答案 5 :(得分:1)
使用python从.csv文件中删除空行
import csv
...
with open('demo004.csv') as input, open('demo005.csv', 'w', newline='') as output:
writer = csv.writer(output)
for row in csv.reader(input):
if any(field.strip() for field in row):
writer.writerow(row)
谢谢
答案 6 :(得分:0)
在此脚本中,所有CR / CRLF都将从CSV文件中删除,然后包含以下行:
"My name";mail@mail.com;"This is a comment.
Thanks!"
执行脚本https://github.com/eoconsulting/lr2excelcsv/blob/master/lr2excelcsv.py
结果(Excel CSV格式):
"My name",mail@mail.com,"This is a comment. Thanks!"
答案 7 :(得分:0)
我需要执行此操作,但是不幸的是,CSV文件的末尾没有空白行,就像该代码一样(如果您保存-> .csv,Excel也这样做)。我使用CSV模块的代码(甚至更简单)也做到了这一点:
import csv
input = open("M51_csv_proc.csv", 'rb')
output = open("dumpFile.csv", 'wb')
writer = csv.writer(output)
for row in csv.reader(input):
writer.writerow(row)
input.close()
output.close()
M51_csv_proc.csv正好有125行;该程序始终输出126行,最后一行为空白。
我经历了所有这些线程,似乎没有任何东西可以改变这种行为。
答案 8 :(得分:0)
用熊猫做非常简单。用熊猫打开您的csv文件:
JavascriptExecutor executor = (JavascriptExecutor) driver;
executor.executeScript("document.getElementById('CheckoutWelcomeTitle').value=''");
答案 9 :(得分:0)
将 PATH_TO_YOUR_CSV 替换为您的
import pandas as pd
df = pd.read_csv('PATH_TO_YOUR_CSV')
new_df = df.dropna()
df.dropna().to_csv('output.csv', index=False)
或内联:
import pandas as pd
pd.read_csv('data.csv').dropna().to_csv('output.csv', index=False)
答案 10 :(得分:0)
我也有同样的问题。
我将 .csv 文件转换为数据框,然后将数据框转换回 .csv 文件。
带有空行的初始 .csv 文件是 'csv_file_logger2.csv' 。
所以,我做了以下过程
import csv
import pandas as pd
df=pd.read_csv('csv_file_logger2.csv')
df.to_csv('out2.csv',index = False)