为了开发邮件客户端,我需要一个包含尽可能多邮件的非常大的mbox测试文件。优选地> 100,000个邮件(> 10GB)。
它应该是真实的邮件数据,因为我不仅想测试性能,还要测试邮件过滤器和搜索。
提前感谢任何有关此类内容的提示。
答案 0 :(得分:5)
您可以使用搜索引擎收集 .mbox 文本文件。例如,谷歌搜索filetype:mbox pipermail
会产生大量.mbox数据。而不是pipermail,from
可用作搜索字符串。
可以连接各个.mbox文件:
cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile
P.S。这不是不道德的数据,而是你用它做的事情。请道德行事!
答案 1 :(得分:4)
另外几个选项:
安然电子邮件语料库,包含210 GB的电子邮件。它是多种电子邮件格式,但应该易于阅读。
作为FERC西部能源市场调查的一部分公开发布的安然电子邮件数据由EDRM转换为行业标准格式。该数据集包括1,227,255封电子邮件和493,384个附件,涵盖151个托管人。该电子邮件以Microsoft PST,IETF MIME和EDRM XML格式提供。
Apache Software Foundation公共邮件存档(200 GB)
截至2011年7月11日所有公开发布的Apache Software Foundation邮件存档的集合
此集合包含ASF 80+ projects
中所有可公开提供的电子邮件存档
答案 2 :(得分:0)
也许您可以使用自己的邮箱并多次复制它。例如。您设置了一个邮件帐户并使用IMAP或使用文件系统多次复制所有电子邮件,但这取决于您使用的数据格式。