应用错误收集

我如何获得维基百科页面的子集？

时间：2009-08-24 04:26:50

标签： wiki mapreduce sample-data

我如何获得维基百科页面的子集（比如100MB）？我发现你可以将整个数据集作为XML获得，但它更像是1或2个演出;我不需要那么多。

我想尝试实现map-reduce算法。

话虽如此，如果我能从任何地方找到100兆的文本样本数据，那也会很好。例如。 Stack Overflow数据库，如果可用，可能是一个很好的大小。我愿意接受建议。

编辑：任何不是种子？我不能让那些人在工作。

6 个答案:

答案 0 :(得分：4)

stackoverflow数据库可用于download。

答案 1 :(得分：3)

克里斯，你可以写一个小程序来点击维基百科的“随机页面”链接，直到你得到100MB的网页：http://en.wikipedia.org/wiki/Special:Random。您可能希望丢弃可能获得的任何重复项，并且您可能还希望限制每分钟发出的请求数（尽管部分文章将由中间Web缓存提供，而不是维基百科服务器）。但它应该很容易。

答案 2 :(得分：1)

如果您想获取stackoverflow数据库的副本，可以从the creative commons data dump执行此操作。

出于好奇，您使用了所有这些数据？

答案 3 :(得分：1)

一种选择是下载整个Wikipedia转储，然后只使用其中的一部分。您可以解压缩整个事物，然后使用简单的脚本将文件拆分为较小的文件（例如here），或者如果您担心磁盘空间，可以编写一个解压缩和拆分的脚本。苍蝇，然后你可以在你想要的任何阶段停止解压缩过程。 Wikipedia Dump Reader可以通过你的灵感来解压缩和处理，如果你对python感到满意（看看mparser.py）。

如果你不想下载整个东西，你可以选择疤痕。 Export feature可能对此有所帮助，并且在此上下文中也提出了wikipediabot。

答案 4 :(得分：0)

您可以使用网络抓取工具并抓取100MB的数据吗？

答案 5 :(得分：0)

有很多维基百科转储可用。你为什么要选择最大的（英文维基）？维基新闻档案要小得多。