有没有人知道可以下载示例(真实)数据的任何好资源,用于试验统计和机器学习技术,例如决策树等?
目前我正在研究机器学习技术,如果有真实数据来评估各种工具的准确性,对我来说非常有帮助。
如果有人知道任何好的资源(可能是csv,xls文件或任何其他格式),我会非常感谢你的建议。
答案 0 :(得分:1)
UCI Machine Learning Archive的KDD Cup和过去的数据集可能是用于一般数据挖掘的最知名的此类档案。更具体的来源的示例是UCR Time Series Classification/Clustering Page。
答案 1 :(得分:1)
这里列出了数百个数据集的an article from DataWrangling.com。
答案 2 :(得分:0)
在Kaggle上,你可以找到一些比赛并下载相关的数据集。
有一个系统可以实时为您的解决方案打分,您可以在“实时排行榜”中看到自己的位置。
这是研究机器学习技术的好方法,因为选择“知识”竞赛可以将您的解决方案与其他参与者进行比较,并讨论各种方法的优缺点。
答案 3 :(得分:0)
试试我的博客Vellum Information,我在其中有几个带注释的参考书目,用于策划数据集和数据源:
http://velluminformation.com/2014/03/05/big-data-public-databases-an-annotated-bibliography/。
我有一个可用的各种数据源的注释参考书目。我还在这里获得了健康数据的注释参考书目:
http://velluminformation.com/2012/05/19/free-online-public-data-sources-an-annotated-bibliography/
明显的披露,这是我的博客,所以还有其他技术方面。