对于我的论文项目,我将处理大量的电子邮件。 我需要提取所有头字段并将它们管道化为各种类型的数据结构,最好像JSON那样具有通用性。
现在,我一直在研究这个问题并找到了很多半工作的解决方案。 我不想让你告诉我怎么做,只是把一些想法放在桌面上。
现在我的计划是使用python来解析头字段。 我之所以选择python,是因为它非常简单,而且我有过使用它的经验。此外,还有很多图书馆。 问题是python官方电子邮件处理不能很好地处理重复字段,这对我来说至关重要。特别是标题"收到:"因为这个允许跟踪多个邮件服务器上的电子邮件旅行。
官方图书馆会忽略多个字段,只存储第一个字段-..-"
有什么想法吗?你会如何解决这个问题?
答案 0 :(得分:1)
这个答案可能对您有所帮助:problem with email parsing with python and multiple Received records
电子邮件的python doc。 getitem ()说:
请注意,如果指定字段在消息中出现多次 标题,确切地返回哪些字段值 未定义。使用get_all()方法获取所有值的值 现存的名称标题。
所以,使用e.get_all(i)而不是e [i]来获取所有的值 收到:标题。