应用错误收集

时间：2010-03-31 18:28:43

标签： database dataset

我想为全文搜索做一些轻量级测试和基准测试，因此数据集应具备以下特性：

书籍或带有标题和说明字段的电影之类的东西将是完美的。我浏览了UCI机器学习回购，但它太以数字为导向了。

答案 0 :(得分：2)

答案 1 :(得分：1)

如果找不到，可以使用LOREM IPSUM发生器

创建一个

您还可以获得完整的StackOverflow数据转储

答案 2 :(得分：1)

使用Gutenberg Project。您可以使用纯文本访问数以千计的英文书籍。这就是我曾经使用过的东西并对此感到满意。