出于测试目的,我需要创建具有相似但不相同的文本的文本文件集。每一组都需要与另一组不同,但也有一些共性。
例如,我可能需要创建10组20个文档,每个文档总共200个。每篇文档大约需要250个单词。
如果其中一组文件是关于狗的,那么另一套文件就是关于动物,例如,每组(在这种情况下是动物)和强者之间存在薄弱环节是合适的。一组中的文件之间的联系(例如一组中的狗和另一组中的猫)。
文件中的文字不需要按任何特定的顺序排列,也不需要用句子或有意义。
有人知道如何为我的单元测试生成或获取此类数据吗?
答案 0 :(得分:3)
从Project Gutenberg抓取一些文字怎么样?
答案 1 :(得分:0)
我需要用于文本索引的测试数据集来基准solr索引速度。 我从github下载了源代码作为zip文件。例如这个是巨大的 - https://github.com/spring-projects/spring-framework
"下载为zip"按钮。