用于基准测试的随机单词的大型文本文件字典?

时间:2010-10-24 02:00:00

标签: data-structures text dataset computer-science

我想知道是否有人能指出一个非常大的随机单词词典,可以用来测试一些高性能的字符串数据结构?我发现一些在~2MB范围内......但是如果可能的话,我想要更大一些。我猜测必须有一些可以使用的大型标准字符串数据集。谢谢!

2 个答案:

答案 0 :(得分:4)

http://norvig.com/big.txt

Norvig的拼写检查文章 - http://norvig.com/spell-correct.html

中提到了上述链接

答案 1 :(得分:1)

我建议您查看TREC(文本检索会议)上提供的资料。一些可能符合您要求的好数据集。