标签: full-text-search full-text-indexing test-data sample-data
我希望对PostgreSQL,SQLServer和Lucene中的全文搜索索引进行一些基准测试。
关于在哪里找到一个好的大样本数据库来执行查询的任何想法?
提前多多感谢。
答案 0 :(得分:2)
我认为伟大的来源是维基百科的数据库转储,因为它们包含非常多的文本。它们可在此处获取:http://dumps.wikimedia.org/
您也可以尝试使用usenet存档,但是选择目标语言更加困难,所用语言的质量也会更低。