搜索引擎的俄语文档语料库

时间:2009-05-03 22:59:02

标签: nlp information-retrieval documents corpus

我正在进行跨语言信息检索,该检索采用英语查询并以俄语搜索文档。为了评估这个系统,有一组俄罗斯文件可供搜索。有没有人知道我可以搜索的文件集合或网站,我可以轻松地将一堆俄文文件(除了维基百科)拼凑起来?

文件可以是任何东西,但如果它们在人类知识的某些特定领域(CS,建筑,工程,艺术,文学分析,等等......)会很好。

1 个答案:

答案 0 :(得分:1)

不知道这是否是你要找的,但是here's a torrent of Russian national standards and laws。它们采用dBase4格式,大约有57.3 GB的数据。