标签: data-structures text dataset computer-science
我想知道是否有人能指出一个非常大的随机单词词典,可以用来测试一些高性能的字符串数据结构?我发现一些在~2MB范围内......但是如果可能的话,我想要更大一些。我猜测必须有一些可以使用的大型标准字符串数据集。谢谢!
答案 0 :(得分:4)
http://norvig.com/big.txt
Norvig的拼写检查文章 - http://norvig.com/spell-correct.html
答案 1 :(得分:1)
我建议您查看TREC(文本检索会议)上提供的资料。一些可能符合您要求的好数据集。