我正在使用python包邮箱,我正在尝试提取消息并清理数据。我遇到的问题是,对于大型数据库,我可以使用我的示例文件调用构造函数,但是当我尝试打印任何消息时,我的程序挂起。我认为这是因为我试图读取的文件超过7GB。我该如何处理这个问题?
答案 0 :(得分:0)
考虑手动拆分邮箱。通过逐行读取,格式非常容易处理(只要您只需要只读访问权限);并且您可以使用现有的类来实际解析单个消息。
查找mbox格式的定义 - 以" From
"开头的行开始新邮件。您可以在这些标记处拆分大文件,然后使用mailbox
包一次只读取一个文件。