应用错误收集

时间：2009-01-06 04:57:59

标签： unit-testing

出于测试目的，我需要创建具有相似但不相同的文本的文本文件集。每一组都需要与另一组不同，但也有一些共性。

例如，我可能需要创建10组20个文档，每个文档总共200个。每篇文档大约需要250个单词。

如果其中一组文件是关于狗的，那么另一套文件就是关于动物，例如，每组（在这种情况下是动物）和强者之间存在薄弱环节是合适的。一组中的文件之间的联系（例如一组中的狗和另一组中的猫）。

文件中的文字不需要按任何特定的顺序排列，也不需要用句子或有意义。

有人知道如何为我的单元测试生成或获取此类数据吗？

答案 0 :(得分：3)

从Project Gutenberg抓取一些文字怎么样？

答案 1 :(得分：0)

我需要用于文本索引的测试数据集来基准solr索引速度。我从github下载了源代码作为zip文件。例如这个是巨大的 - https://github.com/spring-projects/spring-framework

＆＃34;下载为zip＆＃34;按钮。