运行统计分析的数据集

时间:2010-02-12 13:46:57

标签: r statistics dataset

互联网上存在哪些我可以进行统计分析的数据集?

17 个答案:

答案 0 :(得分:45)

基础R包含datasets包。运行此命令以查看完整列表:

library(help="datasets")

除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包。其中,您可能希望从查看HistData包开始,该包“提供了统计和数据可视化历史中有趣且重要的小数据集合。”

对于财务数据,the quantmod package提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED(the Federal Reserve of St. Louis)确实是自由经济数据的地雷。

许多R软件包捆绑了特定于其目标的数据。因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例。此外,书籍包通常附带重现所有示例所需的数据。

以下是相关套餐的一些示例:

  • alr3:包含与应用线性回归(http://www.stat.umn.edu/alr
  • 相关的数据
  • arm:包含一些来自Gelman的“使用回归和多级/分层模型的数据分析”的数据(其余数据和代码在the book's website上)
  • BaM:包含“贝叶斯方法:社会和行为科学方法”的数据
  • BayesDA:包括来自Gelman的“贝叶斯数据分析”
  • 的数据
  • cat:包含用于分析变量数据集的数据
  • cimis:从加利福尼亚州灌溉管理信息系统CIMIS检索数据
  • cshapes:包含GIS数据边界和数据
  • ecdat:计量经济学的数据集
  • ElemStatLearn:包含来自“统计学习,数据挖掘,推理和预测的元素”的数据
  • emdbook:来自“生态模型和数据”的数据
  • Fahrmeir:“基于广义线性模型的多元统计建模”一书中的数据
  • fEcoFin:Rmetrics的“经济和财务数据集”
  • fds:功能数据集
  • fma:来自“预测:方法和应用程序”的数据集
  • gamair:“广义添加模型:R简介”的数据
  • geomapdata:地形和地质测绘数据
  • nutshell:包含“坚果壳中的R”一书中的所有数据
  • nytR:通过纽约时报API
  • 提供对国会投票数据的访问权限
  • openintro:本书中的数据
  • primer:包含“A生态学入门”的数据
  • qtlbook:包含R / qtl图书的数据
  • RGraphics:包含“R Graphics”一书中的数据
  • Read.isi:访问旧的世界生育率调查数据

答案 1 :(得分:6)

网上广泛的选择。例如,这是一个庞大的sports databases目录(所有数据都免费提供,至少这是我的经验)。在该目录中是databaseBaseball.com,其中包含complete datasets,用于自1915年左右以来曾经参加职业棒球比赛的每位球员。

StatLib是另一个优秀的资源 - 非常方便。这个单web page列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的“表”链接以平面文件形式提供。

R的基本分布预先打包了大量不同的数据集(R 2.10中的122个)。要获得它们的列表(以及单行描述):

data(package="datasets")

同样,大多数软件包都附带了几个数据集(有时甚至更多)。你可以用同样的方式看到它们:

data(package="latticeExtra")
data(package="vcd")

这些数据集是给定包中的包装手册和插图中提到的数据集,用于说明包的功能。

一些包含大量数据集的R包(同样易于扫描,因此您可以选择对您感兴趣的内容):AER,DAAG和vcd。

我发现R令人印象深刻的另一件事就是它的I / O.假设您想通过yahoo finance API获取一些非常具体的财务数据。假设从2001年到2009年每个月关闭S& P 500的开盘价和收盘价,只需这样做:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data'。 (这里有一个方便的cheat sheet w /用于构建URL的Yahoo Finance API符号,如上所述)

答案 2 :(得分:5)

您考虑过Stack Overflow Data Dumps吗?

您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑

答案 3 :(得分:5)

http://www.data.gov.uk/data

最近由Tim Berners-Lee设立

显然是基于英国的数据,但这无关紧要。涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容

答案 4 :(得分:4)

寻找经济数据的良好开端始终是以下三个地址:

发展经济学家的数据集链接的一个很好的摘要可以在以下网址找到:

修改

世界银行上周决定开放大量以前非免费的数据集,并在其修订后的主页上在线发布。新的互联网外观看起来也很不错。

答案 5 :(得分:3)

可以在268 small text files中找到一组The R Book's companion website"The R Book"的工作示例)。

答案 6 :(得分:3)

您可以查看this post on FlowingData

答案 7 :(得分:3)

http://www.data.gov/可能有你可以使用的东西。

在他们的原始数据目录中,您可以设置数据标准并找到您要查找的内容http://www.data.gov/catalog/raw

答案 8 :(得分:3)

另一个好网站是UN Data

  

联合国统计司   (UNSD)经济部   和社会事务(DESA)发起了一场   新的基于互联网的数据服务   全球用户社区。带来   联合国统计数据库很容易   通过单个条目覆盖用户   点(http://data.un.org/)。用户可以   现在搜索和下载各种各样的   联合国统计资源   系统

答案 9 :(得分:3)

Weka和其他数据分析软件包所理解的over 800 datasets in ARFF format的集合,收集在TunedIT.org存储库中。

答案 10 :(得分:2)

参见Hadley Wickham为Data Expo of the ASA Statistical Computing and Statistical Graphics部分设置的数据竞赛。比赛结束了,the data仍在那里。

答案 11 :(得分:2)

UC Irvine Machine Learning Repository目前有190个数据集。

  

UCI机器学习库是   一组数据库,域   理论和数据生成器   由机器学习社区使用   用于机器的实证分析   学习算法。

答案 12 :(得分:1)

与data.gov类似,但以欧洲为中心的是欧洲统计局

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

并且还有Wildebeests

提到的中国统计部门

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

然后有一些“社交数据服务”提供数据集的下载,例如 swivel,manyeyes,timetric,ckan,infochimps ..

答案 13 :(得分:1)

答案 14 :(得分:1)

粮农组织向aquastat数据库提供数据,其中包含按国家划分的各种与水有关的指标。

海军海洋学门户网站提供了Fraction of the Moon Illuminated

博客“弯曲正常”有a list of interesting data sources

答案 15 :(得分:1)

我在您的其他问题上看到您显然对数据可视化感兴趣。然后查看many eyes项目(表单IBM)和示例data sets

答案 16 :(得分:0)

这是一个包含书籍和论文的农业数据集的R包。示例分析包括:agridat