使用csv.DictReader处理CSV文件非常棒 - 但我的CSV文件中包含注释行(在行首处用哈希表示),例如:
# step size=1.61853 val0,val1,val2,hybridisation,temp,smattr 0.206895,0.797923,0.202077,0.631199,0.368801,0.311052,0.688948,0.597237,0.402763 -169.32,1,1.61853,2.04069e-92,1,0.000906546,0.999093,0.241356,0.758644,0.202382 # adaptation finished
csv模块doesn't include any way to skip such lines。
我可以很容易地做一些hacky,但我想有一种很好的方法可以将csv.DicReader包装在其他迭代器对象周围,该对象会预处理以丢弃这些行。
答案 0 :(得分:74)
实际上这适用于filter
:
import csv
fp = open('samples.csv')
rdr = csv.DictReader(filter(lambda row: row[0]!='#', fp))
for row in rdr:
print(row)
fp.close()
答案 1 :(得分:4)
很好的问题,也是Python CSV库缺乏重要功能的一个很好的例子,例如处理基本注释(在CSV文件的顶部并不罕见)。虽然Dan Stowell的解决方案适用于OP的特定情况,但它的局限性在于#
必须作为第一个符号出现。更通用的解决方案是:
def decomment(csvfile):
for row in csvfile:
raw = row.split('#')[0].strip()
if raw: yield raw
with open('dummy.csv') as csvfile:
reader = csv.reader(decomment(csvfile))
for row in reader:
print(row)
例如,以下dummy.csv
文件:
# comment
# comment
a,b,c # comment
1,2,3
10,20,30
# comment
返回
['a', 'b', 'c']
['1', '2', '3']
['10', '20', '30']
当然,这与csv.DictReader()
一样适用。
答案 2 :(得分:1)
另一种读取CSV文件的方法是使用pandas
这是示例代码:
df = pd.read_csv('test.csv',
sep=',', # field separator
comment='#', # comment
index_col=0, # number or label of index column
skipinitialspace=True,
skip_blank_lines=True,
error_bad_lines=False,
warn_bad_lines=True
).sort_index()
print(df)
df.fillna('no value', inplace=True) # replace NaN with 'no value'
print(df)
对于此csv文件:
a,b,c,d,e
1,,16,,55#,,65##77
8,77,77,,16#86,18#
#This is a comment
13,19,25,28,82
我们将获得以下输出:
b c d e
a
1 NaN 16 NaN 55
8 77.0 77 NaN 16
13 19.0 25 28.0 82
b c d e
a
1 no value 16 no value 55
8 77 77 no value 16
13 19 25 28 82
答案 3 :(得分:0)
只需发布@sigvaldm解决方案中的错误修正即可。
def decomment(csvfile):
for row in csvfile:
raw = row.split('#')[0].strip()
if raw: yield row
with open('dummy.csv') as csvfile:
reader = csv.reader(decomment(csvfile))
for row in reader:
print(row)
CSV行可以在带引号的字符串中包含“#”字符,并且完全有效。先前的解决方案是切断包含“#”字符的字符串。