免费的大型数据集来试验Hadoop

时间:2010-04-20 10:54:11

标签: resources hadoop opendata

您是否知道任何大型数据集来试验Hadoop,这是免费/低成本的? 任何相关的指针/链接都表示赞赏。

Prefernce:

  • 至少一GB的数据。

  • 网络服务器的生产日志数据。

到目前为止我发现的很少:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

  4. 我们也可以运行自己的抓取工具来从网站收集数据,例如维基百科?关于如何做到这一点的任何指针也很受欢迎。

4 个答案:

答案 0 :(得分:10)

一个明显的来源:the Stack Overflow trilogy data dumps。这些可以在知识共享许可下免费获得。

答案 1 :(得分:10)

关于抓取和维基百科的问题很少。

您已链接到wikipedia data dumps,您可以使用UMD的Cloud9项目在Hadoop中处理此数据。

他们有一个页面:Working with Wikipedia

要添加到列表中的另一个数据源是:

  • ClueWeb09 - 在09年1月至2月期间收集了10亿个网页.5TB压缩。

使用爬虫来生成数据应该在一个单独的问题中发布到一个关于Hadoop / MapReduce的问题。我想说。

答案 2 :(得分:7)

这是用于机器学习的189个数据集的集合(这是hadoop g 最好的应用程序之一): http://archive.ics.uci.edu/ml/datasets.html

答案 3 :(得分:6)

这不是日志文件,但也许您可以使用OpenStreetMap中的行星文件:http://wiki.openstreetmap.org/wiki/Planet.osm

CC许可证,大约160 GB(未打包)

每个大陆也有较小的文件:http://wiki.openstreetmap.org/wiki/World