我正在使用Gmail API从我的收件箱中检索电子邮件:
query = 'to:me after:{}'.format(weekStartDate)
unreadEmailsQuery = service.users().messages().list(userId='me', q=query).execute()
# For Each Email
for message in unreadEmailsQuery['messages']:
result = service.users().messages().get(id=message['id'],userId='me').execute()
email_content = ''
if 'data' in result['payload']['body'].keys():
email_content+= result['payload']['body']['data']
else:
for part in result['payload']['parts']:
email_content = part['body']['data'] + email_content
test = bytes(str(email_content),encoding='utf-8')
print(base64.decodebytes(test))
正确打印出简单的纯文本消息:
b'Got another one with me
但打印出如下的html消息:
b'<body\x03B\x83B\x83B\x83B\x88\x08\x0f\x1bY]\x18H\x1a\x1d\x1d\x1c\x0bY\\]Z]\x8fH\x90\xdb\
我可以看到它没关系,直到第一个&gt;从那时起,字符串被错误打印,我不知道为什么。
我正试图从我的电子邮件中提取单词,以便我可以训练分类器,但我被卡住了。
非常感谢任何帮助。
答案 0 :(得分:2)
我需要使用URl安全base64解码。
我设法通过改变最后一行来实现这个目标:
print(base64.decodebytes(test))
为:
print(base64.urlsafe_b64decode(thng))