用于下载邮件列表档案的开源项目,最好是用Python

时间:2012-10-27 06:35:56

标签: python python-2.7

我有兴趣知道是否有任何开源项目(最好是Python)可以用来下载(抓取?)Lucene / Hadoop等开源项目的邮件列表档案(例如{{3} })。我特地寻找为(Apache)邮件列表存档(不是像Scrappy这样的通用爬虫)定制的爬虫/下载器。任何指针都非常感谢。 谢谢。

1 个答案:

答案 0 :(得分:10)

通常有下载mbox文件的工具。在您提供的链接中,您可以例如附加mbox名称并直接获取邮件存档。例如,2012年10月的mbox:

http://mail-archives.apache.org/mod_mbox/lucene-java-user/201210.mbox

因此以编程方式获取档案非常简单。一旦你拥有它们:

import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']