自由可用的真实公共数据

时间:2014-07-25 18:18:32

标签: hadoop machine-learning bigdata business-intelligence information-extraction

注意:我不是在寻找样本数据。

在不同的域中为免费公开公开了哪些真实数据集:

例如:

  1. FCM的财务报告 http://www.cftc.gov/MarketReports/FinancialDataforFCMs/HistoricalFCMReports/index.htm

  2. YouTube数据(人气指标和频道统计信息) https://developers.google.com/youtube/analytics/

  3. 如果此类数据可用,请分享。

    可能与下面或其他可能有用的内容有关。

    可能在医学领域,药学,医学消费。

    不同城市的交通,事故,伤亡人员等。

    不同地区的女性安全指标。

    食品/饮料消费,价格。

    垃圾收集量,洗手间根据地区/ apt。

    他们收到了多少孤儿院和多少资金。

    一个城市有多少个残疾人停车位等。

    我非常感谢建议我一个更好的论坛, 如果您认为这种平台的问题不合适。

2 个答案:

答案 0 :(得分:4)

是的,这是正确的论坛,有很多地方数据集是免费提供的,我收集了以下链接的时期,其中许多用于学习目的,很少有真正认真解决问题。

UCI在http://archive.ics.uci.edu/ml/

拥有着名的数据存储库

http://www.knmi.nl/climatology/daily_data/download.html

的天气数据非常好

根据复杂性http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/slr/frames/frame.html

计算不同ML问题的数据集

如果您拥有Wolfarm Alpha pro帐户,则可以下载CSV格式的研究数据。例如(将鼠标悬停在图上以获取下载链接) http://www.wolframalpha.com/input/?i=home+prices+folsom+california http://www.wolframalpha.com/input/?i=historical+gold+prices

如前所述,过去和现在的比赛是很好的源数据集,用于试验和验证算法的准确性。 https://www.kaggle.com/competitions

有许多数据集,包括零售市场和流量 http://fimi.ua.ac.be/data/

UCI数据档案馆 http://kdd.ics.uci.edu/

Statlib数据arcihive http://lib.stat.cmu.edu/datasets/

来自马里兰大学的经济时间系列数据集 http://inforumweb.umd.edu/econdata/econdata.html

有许多时间序列涵盖了为澳大利亚莫纳什大学编制的各方面数据库(有关贷款,绵羊人口等的有趣数据集) http://datamarket.com/data/list/?q=provider:tsdl

数据被视为商品,很少有网站为研究人员销售数据。 http://datamarket.com

可以在此处找到为学习社区共享的各种数据集, http://www.cs.ucr.edu/~eamonn/time_series_data/

空间数据列表的收集 http://geodacenter.asu.edu/datalist/

一些有趣的学习数据集 http://calcnet.mth.cmich.edu/org/spss/Prjs_DataSets.htm

英国大选研究数据集 http://www.britishelectionstudy.com/data/#.U9M1CvmSzoE

德国社会调查数据 http://www.gesis.org/en/allbus/allbus-home/

哈佛大学的研究数据集 http://www.cid.harvard.edu/ciddata/ciddata.html

在国际经济学上编制的各种数据集,可能需要一些数据按摩,就像在这里找到的许多数据集一样 http://graduateinstitute.ch/home/study/academicdepartments/international-economics/md4stata/datasets.html

可以在此处找到大型文件中的社区堆栈流数据,用于任何数据研究 http://blog.stackoverflow.com/category/cc-wiki-dump/

免费经济学,人口统计学和财务数据(需要登录) https://www.economy.com/freelunch/

美国政府数据专用网站 https://www.data.gov/

亚马逊在AWS上托管大量公共数据集 https://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

汇编了许多数据集 http://www.kdnuggets.com/2011/02/free-public-datasets.html http://www.datasciencecentral.com/profiles/blogs/big-data-sets-available-for-free http://www.infochimps.com/datasets http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public

XML数据源 http://usgovxml.com/

对于漫长而压倒性的数据集链接表示抱歉:)

答案 1 :(得分:2)

以下是一些我的头脑。

Amazon Web Services可用的公共数据集:

https://aws.amazon.com/datasets

Socrata是城市发布数据的初创软件平台:

https://opendata.socrata.com/

使用Socrata的城市包括旧金山和纽约市:

https://data.sfgov.org/

https://nycopendata.socrata.com/

UC Irvine数据集(非常小的数据):

http://archive.ics.uci.edu/ml/

将机器学习应用于真实(但匿名)数据的Kaggle竞赛:

https://www.kaggle.com/competitions

KDNuggets已知数据集汇编:

http://www.kdnuggets.com/datasets/index.html