用于测试目的的大样本mbox文件

时间:2012-06-23 18:13:34

标签: file testing mbox

为了开发邮件客户端,我需要一个包含尽可能多邮件的非常大的mbox测试文件。优选地> 100,000个邮件(> 10GB)。

它应该是真实的邮件数据,因为我不仅想测试性能,还要测试邮件过滤器和搜索。

提前感谢任何有关此类内容的提示。

3 个答案:

答案 0 :(得分:5)

您可以使用搜索引擎收集 .mbox 文本文件。例如,谷歌搜索filetype:mbox pipermail会产生大量.mbox数据。而不是pipermail,from可用作搜索字符串。

可以连接各个.mbox文件:

cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile

P.S。这不是不道德的数据,而是你用它做的事情。请道德行事!

答案 1 :(得分:4)

另外几个选项:

安然电子邮件语料库,包含210 GB的电子邮件。它是多种电子邮件格式,但应该易于阅读。

  

作为FERC西部能源市场调查的一部分公开发布的安然电子邮件数据由EDRM转换为行业标准格式。该数据集包括1,227,255封电子邮件和493,384个附件,涵盖151个托管人。该电子邮件以Microsoft PST,IETF MIME和EDRM XML格式提供。

Apache Software Foundation公共邮件存档(200 GB)

  

截至2011年7月11日所有公开发布的Apache Software Foundation邮件存档的集合

     

此集合包含ASF 80+ projects

中所有可公开提供的电子邮件存档

Amazon link

答案 2 :(得分:0)

也许您可以使用自己的邮箱并多次复制它。例如。您设置了一个邮件帐户并使用IMAP或使用文件系统多次复制所有电子邮件,但这取决于您使用的数据格式。