Question

此脚本的目标是获取传入的csv文件，使用DictReader读取它，获取已读取的键，查看它们是否与fieldMap字典中的任何预先指定的值匹配，如果它们匹配，则将这些键附加到我的hdrlist。然后，将标题列表写入输出的文件调用ofp。

我遇到的这个问题是，当我没有匹配fieldMap中预先指定的值之一的键时，我需要插入一个空格（''）。

我尝试在else语句中将空白值附加到hdrlist，并在fieldMap字典中使用空键值对：

if row.has_key(ft_test):
    hdrlist.append(ft_test)
else:
    hdrlist.append('')


'':[''] #blank key:value pair

，但接着是我的：

if hdrlen != len(hdrlist)-1:
    print "Cannot Cannot find a key for %s in file %s" % (ft,fn)"

错误处理语句返回的打印语句比我想象的要多，而且我不确定为什么。

如果有人可以阐明如何在我的ofp.write（fmtstring）中插入空白，那将非常感激。

此外，如果有人能够解释为什么我得到的印刷陈述比我认为应该使用上述其他陈述更多，那么我们也会非常感激。

我的整个脚本在下面，如果有任何其他信息需要帮助我使用此代码，我很乐意提供它。

以下是输入文件的示例，该文件将生成许多打印语句。

input_file.csv = {'cust_no'：1，'streetaddr'：'2103 Union Ave'，'address2'：''，'city'：'Chicago'}

#!/usr/bin/env python
import sys, csv, glob

fieldMap = {'zipcode':['Zip5', 'zip9','zipcode','ZIP','zip_code','zip','ZIPCODE'],
        'firstname':['firstname','FIRSTNAME'],
        'lastname':['lastname','LASTNAME'],
        'cust_no':['cust_no','CUST_NO'],
        'user_name':['user_name','USER_NAME'],
        'status':['status','STATUS'],
        'cancel_date':['cancel_date','CANCEL_DATE'],
        'reject_date':['REJECT_DATE','reject_date'],
        'streetaddr':['streetaddr','STREETADDR','ADDRESS','address'],
        'streetno':['streetno','STREETNO'],
        'streetnm':['streetnm','STREETNM'],
        'suffix':['suffix','SUFFIX'], #suffix of street name: dr, ave, st
        'city':['city','CITY'],
        'state':['state','STATE'],
        'phone_home':['phone_home','PHONE_HOME'],
        'email':['email','EMAIL'],
        '':['']
        }


def readFile(fn,ofp):
    count = 0
    CSVreader = csv.DictReader(open(fn,'rb'), dialect='excel', delimiter=',')
    for row in CSVreader:
        count+= 1
        if count == 1:
            hdrlist = []
            for ft in fieldMap.keys():
                hdrlen = len(hdrlist)
                for ft_test in fieldMap[ft]:
                    if row.has_key(ft_test):
                        hdrlist.append(ft_test)
                if hdrlen != len(hdrlist)-1:
                    print "Cannot find a key for %s in file %s" % (ft,fn)


        if len(hdrlist) != 16:
            print "Another error. Not all header's have been assigned new values."
        if count < 5:
            x=len(hdrlist)
            fmtstring = "%s\t" * len(hdrlist) % tuple(row[x] for x in hdrlist)
            ofp.write(fmtstring)
            break

if __name__ == '__main__':

    filenames = glob.glob(sys.argv[1])
    ofp = sys.stdout
    ofp.write("zipcode\tfirstname\tlastname\tcust_no\tuser_name\tstatus\t"
              "cancel_date\treject_date\tstreetaddr\tstreetno\tstreetnm\t"
              "suffix\tcity\tstate\tphone_home\temail")

    for filename in filenames:
        readFile(filename,ofp)

示例数据：

cust_no,status,streetaddr,address2,city,state,zipcode,billaddr,servaddr,title,latitude,longitude,custsize,telemarket,dirmail,nocredhold,email,phone_home,phone_work,phone_fax,phone_page,phone_cell,phone_othr,taxrate1,taxrate2,taxrate3,taxtot,company,firstname,lastname,user_name,dpbc,container,seq,paytype_am,paytype_di,paytype_mc,paytype_vi
0,0,'123 fake st.',,'chicago','il',60185,'123 billaddr st.','123 servaddr st.','mr.',43.123,54.234 ,2000,'TRUE','TRUE','TRUE','email@email.com',(666)555-6666,,,,,,,,,,,'bob','smith','bob smith',,,,'TRUE','TRUE','TRUE','TRUE'
0,0,'123 fake st.','','chicago','il',60185,'123 billaddr st.','123 servaddr st.','mr.',43.123,54.234 ,2000,'TRUE','TRUE','TRUE','email@email.com',(666)555-6666,'','','','','','','','','','','bob','smith','bob smith','','','','TRUE','TRUE','TRUE','TRUE'

Answer 1

如果您想要的只是正在处理的csv文件中已识别字段名称的hdrlist，则可以通过将DictReader.fieldnames属性中的值与{{1}的内容进行比较来创建它创建fieldMap后立即创建DictReader，因为使用filenames参数执行此操作会自动读取文件的标题行。

我还将您的fieldMap字典更改为OrderedDict，以便保留密钥的顺序。

import glob
from collections import OrderedDict
import csv
import sys

fieldMap = OrderedDict([
    ('zipcode', ['zipcode', 'ZIPCODE', 'Zip5', 'zip9', 'ZIP', 'zip_code', 'zip']),
    ('firstname', ['firstname', 'FIRSTNAME']),
    ('lastname', ['lastname', 'LASTNAME']),
    ('cust_no', ['cust_no', 'CUST_NO']),
    ('user_name', ['user_name', 'USER_NAME']),
    ('status', ['status', 'STATUS']),
    ('cancel_date', ['cancel_date', 'CANCEL_DATE']),
    ('reject_date', ['reject_date', 'REJECT_DATE']),
    ('streetaddr', ['streetaddr', 'STREETADDR', 'ADDRESS', 'address']),
    ('streetno', ['streetno', 'STREETNO']),
    ('streetnm', ['streetnm', 'STREETNM']),
    ('suffix', ['suffix', 'SUFFIX']),  # suffix of street name: dr, ave, st
    ('city', ['city', 'CITY']),
    ('state', ['state', 'STATE']),
    ('phone_home', ['phone_home',' PHONE_HOME']),
    ('email', ['email', 'EMAIL']),
])

def readFile(fn,ofp):
    with open(fn, 'rb') as csvfile:
        # the following reads the header line into csvReader.fieldnames
        csvReader = csv.DictReader(csvfile, dialect='excel', delimiter=',')
        # create a list of recognized fieldnames in the csv file
        hdrlist = []
        for ft in fieldMap:
            for ft_test in fieldMap[ft]:
                if ft_test in csvReader.fieldnames:
                    hdrlist.append(ft_test)
                    break
            else:
                hdrlist.append(None)  # placeholder (could  also be '')
        hdrlen = len(hdrlist)
        ofp.write('hdrlist: {}\n'.format(hdrlist))
        if hdrlen != len(fieldMap):
            print "Note that not all field names were present in file."

        ofp.write("\t".join(fieldMap) + '\n')
        for row in csvReader:
            fmtstring = "%s\t" * hdrlen % tuple(
                row[field] if field else 'NA' for field in hdrlist)
            ofp.write(fmtstring+'\n')

if __name__ == '__main__':
#    sys.argv = [sys.argv[0], 'ofp_input.csv']  # hardcode for testing
    if len(sys.argv) != 2:
        print "Error:  Filename argument missing!"
        sys.exit(-1)
    filenames = glob.glob(sys.argv[1])
    ofp = sys.stdout
    for filename in filenames:
        readFile(filename, ofp)

将空格插入输出文件指针（ofp）

1 个答案: