我有兴趣知道是否有任何开源项目(最好是Python)可以用来下载(抓取?)Lucene / Hadoop等开源项目的邮件列表档案(例如{{3} })。我特地寻找为(Apache)邮件列表存档(不是像Scrappy这样的通用爬虫)定制的爬虫/下载器。任何指针都非常感谢。 谢谢。
答案 0 :(得分:10)
通常有下载mbox文件的工具。在您提供的链接中,您可以例如附加mbox名称并直接获取邮件存档。例如,2012年10月的mbox:
http://mail-archives.apache.org/mod_mbox/lucene-java-user/201210.mbox
因此以编程方式获取档案非常简单。一旦你拥有它们:
import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']