Question

Python新手在这里。我想通过一个大的mbox文件，解析电子邮件。我可以这样做：

import sys
import mailbox

def gen_summary(filename):
    mbox = mailbox.mbox(filename)
    for message in mbox:
       subj = message['subject']
       print subj

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print 'Usage: python genarchivesum.py mbox'
        sys.exit(1)

    gen_summary(sys.argv[1])

但我需要更多控制权。我需要能够在mbox文件中获取给定电子邮件的开头的字节位置，并且还需要获取消息中的字节数（如磁盘上所示）。然后在将来，我不需要从mbox文件的开头迭代，而是需要能够寻找给定的消息并解析它（因此需要在磁盘上获取字节位置）。这些是大型mbox文件，效率是一个问题。

所有这一切的目的是让我可以生成一个摘要文件，其中包含有关mbox中每封电子邮件的一些小部分，然后将来有效地查找mbox中的各个电子邮件。

Answer 1

我没有对此进行测试，但这样的事情可能对您有用。只需打开文件（以二进制模式，这样你的字节计数是正确的），并扫描它，找到消息。

def is_mail_start(line):
    return line.startswith("From ")

def build_index(fname):
    with open(fname, "rb") as f:
        i = 0
        b = 0
        # find start of first message
        for line in f:
            b += len(line)
            if is_mail_start(line):
                break
        # find start of each message, and yield up (index, length) of previous message
        for line in f:
            if is_mail_start(line):
                yield (i, b)
                i += b
                b = 0
            b += len(line)
        yield (i, b) # yield up (index, length) of last message

# get index as a list
mbox_index = list(build_index(fname))

获得索引后，可以使用文件对象上的.seek()方法在那里进行搜索，并在文件对象上使用.read(length)来只读取一条消息。我不确定如何将mailbox模块与字符串一起使用;我认为它适用于就地邮箱。也许你可以使用其他一些邮件解析模块。

用Python解析mbox文件

1 个答案: