我想为全文搜索做一些轻量级测试和基准测试,因此数据集应具备以下特性:
书籍或带有标题和说明字段的电影之类的东西将是完美的。我浏览了UCI机器学习回购,但它太以数字为导向了。
答案 0 :(得分:2)
你可以试试
- CKAN
- 或search for "Open Data"
或者,see Tim Berners-Lee discussing a quick survey of a few Open Data sets。
答案 1 :(得分:1)
如果找不到,可以使用LOREM IPSUM发生器
创建一个您还可以获得完整的StackOverflow数据转储
http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/
答案 2 :(得分:1)
使用Gutenberg Project。您可以使用纯文本访问数以千计的英文书籍。这就是我曾经使用过的东西并对此感到满意。