我在哪里可以下载免费的,文本丰富的数据集?

时间:2010-03-31 18:28:43

标签: database dataset

我想为全文搜索做一些轻量级测试和基准测试,因此数据集应具备以下特性:

  • 10,000 - 100,000条记录。
  • 英语单词的良好分散。
  • 以CSV或Excel格式 - 即。我不想通过API访问它。

书籍或带有标题和说明字段的电影之类的东西将是完美的。我浏览了UCI机器学习回购,但它太以数字为导向了。

3 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

如果找不到,可以使用LOREM IPSUM发生器

创建一个

T-SQL equivalent of =rand()

您还可以获得完整的StackOverflow数据转储

http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/

答案 2 :(得分:1)

使用Gutenberg Project。您可以使用纯文本访问数以千计的英文书籍。这就是我曾经使用过的东西并对此感到满意。