Web上是否有可用于数据挖掘的有用数据集?

时间:2010-06-05 19:31:24

标签: machine-learning dataset data-mining

有没有人知道可以下载示例(真实)数据的任何好资源,用于试验统计和机器学习技术,例如决策树等?

目前我正在研究机器学习技术,如果有真实数据来评估各种工具的准确性,对我来说非常有帮助。

如果有人知道任何好的资源(可能是csv,xls文件或任何其他格式),我会非常感谢你的建议。

4 个答案:

答案 0 :(得分:1)

UCI Machine Learning ArchiveKDD Cup和过去的数据集可能是用于一般数据挖掘的最知名的此类档案。更具体的来源的示例是UCR Time Series Classification/Clustering Page

答案 1 :(得分:1)

这里列出了数百个数据集的an article from DataWrangling.com

答案 2 :(得分:0)

Kaggle上,你可以找到一些比赛并下载相关的数据集。

有一个系统可以实时为您的解决方案打分,您可以在“实时排行榜”中看到自己的位置。

这是研究机器学习技术的好方法,因为选择“知识”竞赛可以将您的解决方案与其他参与者进行比较,并讨论各种方法的优缺点。

答案 3 :(得分:0)

试试我的博客Vellum Information,我在其中有几个带注释的参考书目,用于策划数据集和数据源:

http://velluminformation.com/2014/03/05/big-data-public-databases-an-annotated-bibliography/

我有一个可用的各种数据源的注释参考书目。我还在这里获得了健康数据的注释参考书目:

http://velluminformation.com/2012/05/19/free-online-public-data-sources-an-annotated-bibliography/

明显的披露,这是我的博客,所以还有其他技术方面。