大规模修订的网页存档

时间:2012-04-09 00:03:09

标签: database full-text-search archive large-files

我想测试基于html的搜索引擎,我想要一组相对较大的修订文档。是否有可以下载并存放在我的系统中的存档?我已经读过关于维基百科转储的内容,但我不确定它们是如何格式化的。 Intenet Archive的Wayback Machine很好,但服务器很慢。我正在寻找一个存档:

  • 虽大但不大。类似1000个文档的内容,每个1000个版本都可以满足我的项目。我不是在寻找5TB的数据库。
  • 已修订。静态的单一修订存档不够好。
  • 我正在寻找HTML或可以轻松转换为HTML的文档。

0 个答案:

没有答案