我如何获得维基百科页面的子集?

时间:2009-08-24 04:26:50

标签: wiki mapreduce sample-data

我如何获得维基百科页面的子集(比如100MB)?我发现你可以将整个数据集作为XML获得,但它更像是1或2个演出;我不需要那么多。

我想尝试实现map-reduce算法。

话虽如此,如果我能从任何地方找到100兆的文本样本数据,那也会很好。例如。 Stack Overflow数据库,如果可用,可能是一个很好的大小。我愿意接受建议。

编辑:任何不是种子?我不能让那些人在工作。

6 个答案:

答案 0 :(得分:4)

stackoverflow数据库可用于download

答案 1 :(得分:3)

克里斯,你可以写一个小程序来点击维基百科的“随机页面”链接,直到你得到100MB的网页:http://en.wikipedia.org/wiki/Special:Random。您可能希望丢弃可能获得的任何重复项,并且您可能还希望限制每分钟发出的请求数(尽管部分文章将由中间Web缓存提供,而不是维基百科服务器)。但它应该很容易。

答案 2 :(得分:1)

如果您想获取stackoverflow数据库的副本,可以从the creative commons data dump执行此操作。

出于好奇,您使用了所有这些数据?

答案 3 :(得分:1)

一种选择是下载整个Wikipedia转储,然后只使用其中的一部分。您可以解压缩整个事物,然后使用简单的脚本将文件拆分为较小的文件(例如here),或者如果您担心磁盘空间,可以编写一个解压缩和拆分的脚本。苍蝇,然后你可以在你想要的任何阶段停止解压缩过程。 Wikipedia Dump Reader可以通过你的灵感来解压缩和处理,如果你对python感到满意(看看mparser.py)。

如果你不想下载整个东西,你可以选择疤痕。 Export feature可能对此有所帮助,并且在此上下文中也提出了wikipediabot

答案 4 :(得分:0)

您可以使用网络抓取工具并抓取100MB的数据吗?

答案 5 :(得分:0)

有很多维基百科转储可用。你为什么要选择最大的(英文维基)?维基新闻档案要小得多。