发行Python写作 - 阅读字典的

时间:2017-07-24 20:55:27

标签: python csv email dictionary unicode

Python中的字典存在问题(上一版本)。 这是我的字典: [ {dict1} , {dict2} , ... ] 所有的dict都类似于:

{'Date': '2016-10-17',
  'Message_body': '   Version française  BUSINESS EVENTS - SPRING 2016 April 5: YESS   EVENT ON SCALING UP Robin Bonsey, Hystra Consultant, will discuss business solutions to the predicament of small holder farmer',
  'Sender': 'xxxxxxxxxxx@gmail.com',
  'Subject': 'Fwd: Inclusive business events - spring 2016'}

根据Python,每个值(type(dict1['Message_body']))的“类型”是“str”。 我的问题是在CSV文件中转换这个字典词典(使用键'Date' , 'Message_body' , 'Sender', 'Subject')。 这是我的代码:

def export_dict_list_to_csv(data, filename):
    with open(filename, 'w',encoding='utf-8',newline='') as f:
        # Assuming that all dictionaries in the list have the same keys.
        headers = sorted([k for k, v in data[0].items()])
        csv_data = [headers]

        for d in data:
            csv_data.append([d[h] for h in headers])

        writer = csv.writer(f)
        writer.writerows(csv_data)


export_dict_list_to_csv(final_list, 'chili.csv')

它工作得很好,但错字很奇怪。 例如,在.csv中我有“Chaque moivoudraitêtreletyran de tous les autres”dit Pascal danslesPensées“而不是”Chaque moivoudraitêtreletyran de tous lesautresàditPascal danslesPensées“ 。在“str”形式中,我有“好的错字”,但在.csv中,这不是好的错字(我不知道为什么)。如果CSV文件的“读取”恢复了“str”的良好初始错误,则此问题并不重要。

但我没有成功正确阅读创建的CSV ... 我试过了:

with open('chili.csv', 'r') as csvfile:
     spamreader = csv.reader(csvfile, delimiter=',')
     for row in spamreader:
         print (row)

我得到错误“UnicodeDecodeError:'ascii'编解码器无法解码位置1087中的字节0xc3:序数不在范围内(128)”

我试过了:

with open('/Users/Marco/HandB/Gmail/chili.csv', 'rb') as csvfile:
     spamreader = csv.reader(csvfile, delimiter=',')
     for row in spamreader:
         print (row)

错误:迭代器应该返回字符串,而不是字节(你是否以文本模式打开文件?)

所以我有两个问题: 1)我写CSV文件的方式是好的吗?为什么我在CSV上有一个奇怪的拼写错误?

2)如何阅读之前创建的CSV? 我在互联网上搜索了几个小时,但我没有找到任何特别的帮助我解决这个问题。特别是,我不太清楚所有围绕“编码”问题的问题,我只知道我在dict中的值是str类型,我认为它们是UTF-8格式。 这是代码:(我清理从GMAIL API收到的“数据”)

mssg_parts = payld['parts'] # fetching the message parts
part_one  = mssg_parts[0] # fetching first element of the part 
part_body = part_one['body'] # fetching body of the message
part_data = part_body['data'] # fetching data from the body
clean_one = part_data.replace("-","+") # decoding from Base64 to UTF-8
clean_one = clean_one.replace("_","/") # decoding from Base64 to UTF-8
clean_two = base64.b64decode (bytes(clean_one, 'UTF-8')) # decoding from Base64 to UTF-8
soup = BeautifulSoup(clean_two , "lxml" )
soup = BeautifulSoup(clean_two, "html")
soup.get_text()                      
mssg_body = soup.body()              
# mssg_body is a readible form of message body
# depending on the end user's requirements, it can be further cleaned 
# using regex, beautiful soup, or any other method
temp_dict['Message_body'] = mssg_body

我写下了为我提供“Message_body”部分的代码,因为它可以帮助您理解消息的格式及其转换为CSV文件。

提前多多感谢! :)

1 个答案:

答案 0 :(得分:1)

好像你在使用python3。您将要以文本模式而不是二进制模式打开文件。此外,如果您的数据有一些特殊字符,请在调用open时设置编码以打开文件进行读取。这可以通过encoding=...

完成
with open('/Users/Marco/HandB/Gmail/chili.csv', 'r', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    ...

如果您想将csv作为字典阅读,您应该考虑查看csv.DictReader文档有一些方便的示例可以帮助您入门。