大型mbox数据集上的Python邮箱

时间:2014-10-22 01:32:50

标签: python mbox

我正在使用python包邮箱,我正在尝试提取消息并清理数据。我遇到的问题是,对于大型数据库,我可以使用我的示例文件调用构造函数,但是当我尝试打印任何消息时,我的程序挂起。我认为这是因为我试图读取的文件超过7GB。我该如何处理这个问题?

1 个答案:

答案 0 :(得分:0)

考虑手动拆分邮箱。通过逐行读取,格式非常容易处理(只要您只需要只读访问权限);并且您可以使用现有的类来实际解析单个消息。

查找mbox格式的定义 - 以" From"开头的行开始新邮件。您可以在这些标记处拆分大文件,然后使用mailbox包一次只读取一个文件。