测试数据的类似文本块

时间:2009-01-06 04:57:59

标签: unit-testing

出于测试目的,我需要创建具有相似但不相同的文本的文本文件集。每一组都需要与另一组不同,但也有一些共性。

例如,我可能需要创建10组20个文档,每个文档总共200个。每篇文档大约需要250个单词。

如果其中一组文件是关于狗的,那么另一套文件就是关于动物,例如,每组(在这种情况下是动物)和强者之间存在薄弱环节是合适的。一组中的文件之间的联系(例如一组中的狗和另一组中的猫)。

文件中的文字不需要按任何特定的顺序排列,也不需要用句子或有意义。

有人知道如何为我的单元测试生成或获取此类数据吗?

2 个答案:

答案 0 :(得分:3)

Project Gutenberg抓取一些文字怎么样?

答案 1 :(得分:0)

我需要用于文本索引的测试数据集来基准solr索引速度。 我从github下载了源代码作为zip文件。例如这个是巨大的 - https://github.com/spring-projects/spring-framework

"下载为zip"按钮。