我看过几个这样的问题,但他们的解决方案似乎都不适合我。我有一个电子邮件数据集,我将它们作为文本阅读,之后我只需要将正文作为纯文本。我尝试了多种方法,但我总是得到这样的东西(打印电子邮件的一部分):
我使用的一些功能:
def getEmailMsg(mail):
msg = email.message_from_string(mail)
for part in msg.walk():
if part.get_content_type() == 'text/plain':
parts = part.get_payload()
print(parts)
return parts
我通常会获得纯文本,但主要是<br> <p> <a>
个标签,有时它会打印所有的html。
我想我发现问题出在电子邮件非mulitpart时。但我不知道如何从非多部分中提取身体。