头脑风暴:将txt电子邮件解析为结构化对象(JSON等)

时间:2017-03-03 14:55:16

标签: python json email

对于我的论文项目,我将处理大量的电子邮件。 我需要提取所有头字段并将它们管道化为各种类型的数据结构,最好像JSON那样具有通用性。

现在,我一直在研究这个问题并找到了很多半工作的解决方案。 我不想让你告诉我怎么做,只是把一些想法放在桌面上。

现在我的计划是使用python来解析头字段。 我之所以选择python,是因为它非常简单,而且我有过使用它的经验。此外,还有很多图书馆。 问题是python官方电子邮件处理不能很好地处理重复字段,这对我来说至关重要。特别是标题"收到:"因为这个允许跟踪多个邮件服务器上的电子邮件旅行。

官方图书馆会忽略多个字段,只存储第一个字段-..-"

有什么想法吗?你会如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

这个答案可能对您有所帮助:problem with email parsing with python and multiple Received records

  

电子邮件的python doc。 getitem ()说:

     

请注意,如果指定字段在消息中出现多次   标题,确切地返回哪些字段值   未定义。使用get_all()方法获取所有值的值   现存的名称标题。

     

所以,使用e.get_all(i)而不是e [i]来获取所有的值   收到:标题。