我需要大量数据(超过10GB)来运行Hadoop演示。任何人都知道我可以下载它。请告诉我。
答案 0 :(得分:28)
我建议你从以下网站下载百万首歌曲Dataset:
http://labrosa.ee.columbia.edu/millionsong/
Millions Songs Dataset的最佳之处在于,您可以将1GB(约10000首歌曲),10GB,50GB或约300GB数据集下载到您的Hadoop群集中,并进行您想要的任何测试。我喜欢使用它并使用这个数据集学到很多东西。
首先,你可以从A-Z的任何一个字母下载数据集开始,其范围从1GB到20GB ..你也可以使用Infochimp网站:
http://www.infochimps.com/collections/million-songs
在我的下一篇博客中,我展示了如何下载1GB数据集并运行Pig脚本:
答案 1 :(得分:16)
Tom White在他的书中提到了一个样本天气数据集(Hadoop:权威指南)。
http://hadoopbook.com/code.html
数据已有100多年的历史。
我在linux中使用wget
来提取数据。对于2007年本身,数据大小为27 GB。
它作为FTP
链接托管。因此,您可以使用任何FTP实用程序下载。
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
有关详细信息,请查看我的博客:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
答案 2 :(得分:10)
亚马逊上有公共数据集:左
http://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载。
来自Common Crawl的群集网络也有很好的数据集,也可以在亚马逊s3上找到。 http://commoncrawl.org/
答案 3 :(得分:10)
您可能感兴趣的文章“Using Hadoop to analyze the full Wikipedia dump files using WikiHadoop”。
如果您正在浏览维基百科页面查看统计信息,那么this可能有所帮助。您可以从2007年下载页面计数文件,直到当前日期。只是想知道文件的大小, 1.9 GB一天(这里我选择2012-05-01 )分布在24个文件中。
目前,31个国家/地区的网站提供各种格式的公共数据http://www.data.gov/opendatasites。此外,世界银行在http://data.worldbank.org/data-catalog
提供数据答案 4 :(得分:3)
“Internet Census 2012”如何,通过整个互联网进行分布式扫描收集的数据:
公告:http://seclists.org/fulldisclosure/2013/Mar/166
数据:http://internetcensus2012.bitbucket.org/
整个数据是7TB,(显然)只能通过torrent获得。
答案 5 :(得分:3)
如果您对国家指标感兴趣,我发现的最佳来源是worldbank.org。他们提供的数据可以导出为CSV,这使得它很容易在Hadoop中使用。如果您使用的是.NET,我写了一篇博文http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html,您可以在其中查看数据的外观,如果您从gidhub https://github.com/ryan-popa/Hadoop-Analysis下载代码,则您已经拥有了字符串解析方法。
答案 6 :(得分:0)
生成数据可能比下载和放置数据更快。这样做的好处是可以让您控制问题域,并让您的演示对正在观看的人有意义。