互联网上存在哪些我可以进行统计分析的数据集?
答案 0 :(得分:45)
基础R包含datasets
包。运行此命令以查看完整列表:
library(help="datasets")
除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包。其中,您可能希望从查看HistData包开始,该包“提供了统计和数据可视化历史中有趣且重要的小数据集合。”
对于财务数据,the quantmod
package提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
FRED(the Federal Reserve of St. Louis)确实是自由经济数据的地雷。
许多R软件包捆绑了特定于其目标的数据。因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例。此外,书籍包通常附带重现所有示例所需的数据。
以下是相关套餐的一些示例:
答案 1 :(得分:6)
网上广泛的选择。例如,这是一个庞大的sports databases目录(所有数据都免费提供,至少这是我的经验)。在该目录中是databaseBaseball.com,其中包含complete datasets,用于自1915年左右以来曾经参加职业棒球比赛的每位球员。
StatLib是另一个优秀的资源 - 非常方便。这个单web page列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的“表”链接以平面文件形式提供。
R的基本分布预先打包了大量不同的数据集(R 2.10中的122个)。要获得它们的列表(以及单行描述):
data(package="datasets")
同样,大多数软件包都附带了几个数据集(有时甚至更多)。你可以用同样的方式看到它们:
data(package="latticeExtra")
data(package="vcd")
这些数据集是给定包中的包装手册和插图中提到的数据集,用于说明包的功能。
一些包含大量数据集的R包(同样易于扫描,因此您可以选择对您感兴趣的内容):AER,DAAG和vcd。
我发现R令人印象深刻的另一件事就是它的I / O.假设您想通过yahoo finance API获取一些非常具体的财务数据。假设从2001年到2009年每个月关闭S& P 500的开盘价和收盘价,只需这样做:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data'。 (这里有一个方便的cheat sheet w /用于构建URL的Yahoo Finance API符号,如上所述)
答案 2 :(得分:5)
您考虑过Stack Overflow Data Dumps吗?
您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑
答案 3 :(得分:5)
答案 4 :(得分:4)
寻找经济数据的良好开端始终是以下三个地址:
发展经济学家的数据集链接的一个很好的摘要可以在以下网址找到:
修改强>
世界银行上周决定开放大量以前非免费的数据集,并在其修订后的主页上在线发布。新的互联网外观看起来也很不错。
答案 5 :(得分:3)
可以在268 small text files中找到一组The R Book's companion website("The R Book"
的工作示例)。
答案 6 :(得分:3)
答案 7 :(得分:3)
http://www.data.gov/可能有你可以使用的东西。
在他们的原始数据目录中,您可以设置数据标准并找到您要查找的内容http://www.data.gov/catalog/raw
答案 8 :(得分:3)
另一个好网站是UN Data。
联合国统计司 (UNSD)经济部 和社会事务(DESA)发起了一场 新的基于互联网的数据服务 全球用户社区。带来 联合国统计数据库很容易 通过单个条目覆盖用户 点(http://data.un.org/)。用户可以 现在搜索和下载各种各样的 联合国统计资源 系统
答案 9 :(得分:3)
Weka和其他数据分析软件包所理解的over 800 datasets in ARFF format的集合,收集在TunedIT.org存储库中。
答案 10 :(得分:2)
参见Hadley Wickham为Data Expo of the ASA Statistical Computing and Statistical Graphics部分设置的数据竞赛。比赛结束了,the data仍在那里。
答案 11 :(得分:2)
UC Irvine Machine Learning Repository目前有190个数据集。
UCI机器学习库是 一组数据库,域 理论和数据生成器 由机器学习社区使用 用于机器的实证分析 学习算法。
答案 12 :(得分:1)
与data.gov类似,但以欧洲为中心的是欧洲统计局
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
并且还有Wildebeests
提到的中国统计部门http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm
然后有一些“社交数据服务”提供数据集的下载,例如 swivel,manyeyes,timetric,ckan,infochimps ..
答案 13 :(得分:1)
答案 14 :(得分:1)
粮农组织向aquastat数据库提供数据,其中包含按国家划分的各种与水有关的指标。
海军海洋学门户网站提供了Fraction of the Moon Illuminated。
博客“弯曲正常”有a list of interesting data sources。
答案 15 :(得分:1)
答案 16 :(得分:0)
这是一个包含书籍和论文的农业数据集的R包。示例分析包括:agridat