我如何获得维基百科页面的子集(比如100MB)?我发现你可以将整个数据集作为XML获得,但它更像是1或2个演出;我不需要那么多。
我想尝试实现map-reduce算法。
话虽如此,如果我能从任何地方找到100兆的文本样本数据,那也会很好。例如。 Stack Overflow数据库,如果可用,可能是一个很好的大小。我愿意接受建议。
编辑:任何不是种子?我不能让那些人在工作。
答案 0 :(得分:4)
stackoverflow数据库可用于download。
答案 1 :(得分:3)
答案 2 :(得分:1)
如果您想获取stackoverflow数据库的副本,可以从the creative commons data dump执行此操作。
出于好奇,您使用了所有这些数据?
答案 3 :(得分:1)
一种选择是下载整个Wikipedia转储,然后只使用其中的一部分。您可以解压缩整个事物,然后使用简单的脚本将文件拆分为较小的文件(例如here),或者如果您担心磁盘空间,可以编写一个解压缩和拆分的脚本。苍蝇,然后你可以在你想要的任何阶段停止解压缩过程。 Wikipedia Dump Reader可以通过你的灵感来解压缩和处理,如果你对python感到满意(看看mparser.py)。
如果你不想下载整个东西,你可以选择疤痕。 Export feature可能对此有所帮助,并且在此上下文中也提出了wikipediabot。
答案 4 :(得分:0)
您可以使用网络抓取工具并抓取100MB的数据吗?
答案 5 :(得分:0)
有很多维基百科转储可用。你为什么要选择最大的(英文维基)?维基新闻档案要小得多。